en metod för mätning av fasta...

74
FÖRSÖKSPLANERING och utvärdering av försöksresultat med den matematiska statistikens metoder av Jarl Ahlbeck Åbo Akademi Laboratoriet för anläggningsteknik ”In any system in which variable quantities change, it is of interest to examine the ef- fects some variables appear to exert on others.” (Einstein)

Upload: others

Post on 28-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

FÖRSÖKSPLANERING

och utvärdering av försöksresultat med den matematiska statistikens metoder

av

Jarl Ahlbeck

Åbo Akademi Laboratoriet för anläggningsteknik

”In any system in which variable quantities change, it is of interest to examine the ef-fects some variables appear to exert on others.” (Einstein)

Page 2: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

2

Page 3: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Innehållsförteckning Innehållsförteckning ......................................................................................................3 Inledning ........................................................................................................................5 1 Binomialfördelning, provtagningsteori..................................................................6

1.1 Att dra x element av n ....................................................................................6 1.2 Prov med n partiklar av vilka x är ”svarta”....................................................6 1.3 Väntevärdet µ och variansen σ ...................................................................7 1.4 Granulerade produkter, ofullständigt krossade och malda råmaterial ...........8 1.5 Innesluten aktiv substans ...............................................................................9 1.6 Beaktande av analysstandardavvikelsen ......................................................10 1.7 Poissonfördelningen.....................................................................................11

1.7.1 Industriell tillämpning av Poissonfördelningen ...................................12 2 Mätvärdens stokastiska egenskaper .....................................................................14

2.1 Några definitioner ........................................................................................14 2.2 Den stokastiska variabelns frekvens och fördelningsfunktion.....................14 2.3 Väntevärde och varians................................................................................16 2.4 Skattningen av väntevärdet och variansen...................................................20 2.5 Normalfördelningen.....................................................................................21

3 Medelvärden och snedfördelning.........................................................................24 3.1 Normalfördelningens begränsningar............................................................24 3.2 Logaritmisk normalfördelning .....................................................................24 3.3 Exempel på medelvärdesbildning och snedfördelning ................................25 3.4 Allmänt använda definitioner på medelvärden ............................................27

4 Varaktighetskurvor ..............................................................................................29 5 Statistiska tester ...................................................................................................32

5.1 Enskilda observationers fördelning (normal, log-normal)...........................32 5.2 Medelvärdets fördelning (t-fördelning) .......................................................32 5.3 Variansens fördelning 2χ -fördelning, F-fördelning...................................35

6 Allmän försöksplaneringsteori.............................................................................36 6.1 Målsättning ..................................................................................................36 6.2 Den klassiska metoden.................................................................................36 6.3 En alternativ analys......................................................................................37 6.4 Faktorförsöksplaner, försöksplaner enligt Plackett&Burman......................38 6.5 Några kommentarer .....................................................................................39 6.6 Bearbetning av försöksresultat (exempel) ...................................................40 6.7 Taguchi-metoden .........................................................................................45

6.7.1 Allmänt ................................................................................................45 6.7.2 Svinnfunktionen...................................................................................46 6.7.3 Minimering av svinnfunktionen...........................................................47 6.7.4 Försöksplanering av styr- och störvariabler.........................................47 6.7.5 Signal/brusförhållandet ........................................................................48 6.7.6 Diskussion............................................................................................51

7 Matematiska modeller..........................................................................................52 8 Multipel lineär regressionsanalys ........................................................................55

8.1 Beroende och oberoende variabler...............................................................55 8.2 Korrelationsmatris........................................................................................55 8.3 Beräkning av b-koefficienter med minsta-kvadratmetoden.........................56 8.4 Egenskaper för kvadratsummor och variansanalys......................................57

3

Page 4: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

8.5 Variabeltransformation och ”Backward elimination procedure” ................59 9 Planering av försöksserier med sikte på regressionsanalys av försöksresultaten 61

9.1 Inställbara och icke-inställbara variabler .....................................................61 9.2 Randomisering .............................................................................................61 9.3 Minimumkorrelering....................................................................................61 9.4 Datorprogram för försöksplanering .............................................................61 9.5 Nonsenseliminering .....................................................................................62 9.6 Partiella F-värden.........................................................................................62

10 Tidsserieanalys.....................................................................................................63 10.1 Allmänt om tidsserieanalys..........................................................................63 10.2 Glidande medelvärde och trendanalys .........................................................64 10.3 Auto- och korskorrelogram..........................................................................64 10.4 Exempel på processanalys med korskorrelogram........................................66

11 En- och tvåvägs variansanalys .............................................................................69 11.1 Allmänt ........................................................................................................69 11.2 Envägs variansanalys ...................................................................................70 11.3 Tvåvägs variansanalys .................................................................................72 11.4 Flervägs variansanalys .................................................................................74

4

Page 5: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Inledning Försöksplanering och statistiska metoder är ett ämnesområde som är centralt inte bara vid vetenskapliga undersökningar, utan även i ingenjörens dagliga verksamhet. Kravet på kostnadsmedvetande i experimentell verksamhet gör att man bör sträva till att få fram så mycket användbar information som möjligt med så få försök som möjligt.

I en snabbt ökande internationell konkurrens har kvaliteten på produkterna en avgö-rande betydelse. Utan en ständigt pågående kvalitetskontroll och utvärdering av test-metoderna, kan en ekonomiskt konkurrenskraftig produktion inte upprätthållas. Många länder med betydligt lägre lönenivå än vår klarar redan av att producera pro-dukter med jämn kvalitet och detta är möjligt bland annat genom att man lärt sig be-härska kvalitetskontroll med statistiska metoder och produktionsstyrning.

I kursen försöksplanering beskrivs användbara verktyg för effektivt arbete. Kursen är av tillämpad natur och den teoretiska basen ges i kurserna i matematik som man borde behärska någorlunda innan man ger sig in på försöksplanering.

Vid laboratoriet för anläggningsteknik har de statistiska metoderna tillämpats i många diplomarbeten, licentiatavhandlingar och doktorsarbeten genom åren. Erfarenheterna från dessa har utnyttjats vid uppdaterandet av kursinnehållet.

Det finns idag många utmärkta dataprogram kommersiellt tillgängliga som man kan använda. Förutsättningen är att man skall ha vissa insikter i ”basic theory” om man vill göra ett ekonomiskt hållbart arbete. Risken är lätt att dataprogrammen och s.k. ”cosmetic engineering” dominerar över substansinnehållet och detta hämmar sig i längden.

I denna kurs utnyttjas övningsexempel och en del ”hemgjorda” dataprogram som jag skrivit i Fortran. Det är upp till var och en om man vill använda mera sofistikerade program. Övningsexemplen är gjorda så att simuleringsprogrammen genererar person-liga utgångsdata åt var och en utgående från matrikelnumret. Direkt kopiering av öv-ningsarbetena är därför inte möjligt (!), men samarbete är att rekommendera.

Åbo i september 2004

Jarl Ahlbeck (TkD, docent i miljövårdsteknik)

Bland litteraturen kan nämnas två utmärkta böcker:

D. M. Himmelblau: Process Analysis by Statistical Methods (Wiley&Sons)

N. R. Draper, H. Smith: Applied Regression Analysis (Wiley&Sons)

5

Page 6: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

1

1.1

Binomialfördelning, provtagningsteori

Att dra x element av n Vi erinrar oss från kursen i matematik att antalet sätt att placera x föremål i n positio-ner utan att ordningsföljden inverkar, kan beskrivas av formeln för n över x enligt

)!(!

!xnx

nxn

−=⎟⎟

⎞⎜⎜⎝

⎛ (1.1)

Vi kan t.ex. beräkna antal möjliga lottorader med ekvation (1.1). Vi placerar då ut st slumpvis i positioner. 7=x 39=n

1.2 Prov med n partiklar av vilka x är ”svarta” Nu tänker vi oss istället en provtagningssituation från styckeformigt eller pulverfor-migt material där materialet består av ”svarta” partiklar (t.ex. flis med bark, en malm-partikel) och ”vita” partiklar (t.ex. flis utan bark, stenpartikel utan malm) och vi vill beskriva fördelningen av svarta partiklar i provet.

Om man tänker sig det som en stor sats (bulk) som blandas så bra man kan (fullstän-digt slumpmässig blandning, se bilaga 1) och som sedan matar ut ett prov kan vi göra ett protokoll där vi skriver S varje gång det kommer ut en ”svart” partikel, och V varje gång det kommer ut en ”vit” partikel. Ett protokoll skulle därför kunna se ut som föl-jer

S,V,V,V,S,V,S,S,V,V,V,V,S,V,... o.s.v.

Om vi anser att bulken totalt innehåller %100⋅p svarta, blir sannolikheten för ovan-stående följd enligt sannolikhetslärans multiplikationsprincip (sannolikheten för S och sannolikheten för V och sannolikheten för V etc.

(1.2) xnx pppppppp −−⋅=⋅−⋅⋅−⋅−⋅−⋅= )1(...)1()1()1()1(tensannolikhe

där n är antalet partiklar i provet och x är antalet ”svarta”.

Men vi är inte intresserade av exakt denna följd, utan av sannolikheten för att få x st. svarta oberoende av i vilken ordningsföljd de dyker upp. Det finns n över x såda-na följder som alla ger samma antal svarta, eller x stycken. Sannolikhetslärans addi-tionsprincip (serie A eller serie B eller serie C) ger då

)(xf

(1.3) xnx ppxn

xf −−⎟⎟⎠

⎞⎜⎜⎝

⎛= )1()(

eller formeln för binomialfördelningens frekvensfunktion som är liktydig med elemen-tarsannolikheten för att man skall få exakt x st. svarta om man tar ett prov på n partik-lar av en bulk som innehåller svarta. %100⋅p

6

Page 7: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

1.3 Väntevärdet µ och variansen σ Väntevärdet definieras som det med elementarsannolikheterna (frekvensfunktionen) viktade medelvärdet av de möjliga utfallen av x från 0 till n enligt

(1.4) ∑=

⋅=n

xxxf

0)(µ

Om man insätter uttrycket (1.3) och utvecklar summan erhåller man

pn ⋅=µ (1.5)

vilket ju egentligen är självklart eftersom det förväntade antalet x måste vara lika med halten av x i bulken multiplicerad med antalet partiklar i provet.

Variansen definieras som den med elementarsannolikheterna viktade kvadrat-summan av avvikelserna från väntevärdet enligt

)(xf

(1.6) ∑=

−=n

xxxf

0

22 )()( µσ

Om man även insätter uttrycket (1.3) och utvecklar summan får man efter matematis-ka bearbetning för variansen

) (1.7) 1(2 ppn −=σ

och för standardavvikelsen

)1( ppn −=σ (1.8)

I praktiska tillämpningar är man inte intresserad av standardavvikelsen i enheten ”an-tal”, utan av den relativa procentuella standardavvikelsen, , definierad enligt rs

n

srσ⋅= 100 (1.9)

Om vi vidare betecknar medelhalten av svarta i procent med c enligt

pc ⋅= 100 (1.10)

får vi följande mycket användbara formel för det teoretiska grundfel som fås vid prov-tagning ur en fullständigt stokastiskt (slumpmässigt) blandad sats enligt

( )

ns

cc

r100100 1

100−

⋅= (1.11)

Om vi istället har tillgång till experimentella data där vi tar t.ex. N st. prov med n par-tiklar i varje prov och mäter halten svarta, , i varje prov, kan vi beräkna ic c enligt

7

Page 8: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

∑=

⋅=N

iic

Nc

1

1 (1.12)

och den experimentella procentuella standardavvikelsen enligt den kända for-meln

exp,tots

( )

( )11

2

−=∑=

N

ccs

N

ii

exp,tot (1.13)

bör vi, om blandningen verkligen är perfekt stokastisk, erhålla ett värde på som ligger nära . Om så inte är fallet vet vi att blandningen inte är stokastisk.

exp,totsrs

Ekvationerna (1.9) – (1.13) kan användas för analys av bl.a. följande centrala fråge-ställningar:

- Är bulken tillräckligt väl blandad?

- Hur stora prov (n) måste tas för att ett acceptabelt lågt grundfel i mätningarna skall erhållas?

- Till vilken finhet måste man mala ett material om man utgår från en viss prov-storlek i vikt och accepterar ett visst grundfel?

Ekvation (1.11) finns grafiskt presenterad i bilaga 2.

Exempel

Ett flislager består av flis som är huggen av obarkat virke. En del av flisen har bark på sig, och en annan del är utan bark. Man anser att lagret är väl omblandat, men vill kontrollera detta. Man tar därför 5 st prov i dekanterglas från olika ställen av lagret och räknar hur många flis som har bark på sig i varje prov. Man erhåller: Prov 1: 5 med bark, 15 utan. Prov 2: 11 med bark, 11 utan. Prov 3: 6 med bark, 14 utan. Prov 4: 7 med bark, 14 utan. Prov 5: 8 med bark, 12 utan. Kan man anse lagret vara väl om-blandat?

1.4 Granulerade produkter, ofullständigt krossade och mal-da råmaterial

Tekniska blandningar består inte av svarta och vita partiklar, men teorin för binomial-fördelning kan ändå användas. Man kan till att börja med utgå från att den substans som man skall mäta vid en finmalen blandning representeras av separata korn.

Antalet partiklar i provet kan beräknas enligt

395,0dgf

mn

p

p

⋅⋅⋅=

ρ (1.14)

8

Page 9: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

där

pm är provstorleken (i kg),

f är en formfaktor som är = 1 för kubiska partiklar, = π/6 för sfäriska partiklar, = 0,1 – 0,2 för platta partiklar,

95,0d är den partikeldiameter som avläses från fördelningskurvans övre 95 % gräns. Om alla partiklar är lika stora är lika med partikeldiametern. 95,0d

pρ är partikeldensiteten (obs. INTE bulkdensiteten).

g är en korrektionsterm för partikelstorleksfördelningen så att om alla par-tiklar är lika stora, och om partikeldiametern vid fördelningsfunktionens 95 % övre gräns är fyra gånger större än den vid 5% nedre gräns.

1=g25,0=g

Ekvation (1.11) kan då skrivas

p

r md

Ks3

95,0100 ⋅⋅= (1.15)

⎟⎠⎞

⎜⎝⎛ −⋅⋅⋅=

1001

100gfK pρ

cc

1.5

(1.16)

Denna formel går bra att använda då det är fråga om provtagning från finmalda sten-råmjöl, metallurgiska pulver etc.

Innesluten aktiv substans Vid provtagning från granulerade eller sintrade material måste ekvationerna utvecklas eftersom kornen nu är sammansatta av olika komponenter. Samma ekvationer gäller för ofullständigt krossade och malda material.

Vi antar att blandningen har beretts genom att inblanda en aktiv substans med en par-tikeldiameter L i en bärarsubstans. Alternativt kan man tänka sig ett ofullständigt malt eller krossat fast material där den aktiva substansen som skall mätas finns i inneslutna korn med en diameter L.

Vidare betecknas halten av den aktiva substansen i dessa korn med . Om kornen är rena är .

gc%100=gc

Övriga beteckningar är som tidigare så att c är medelhalten aktiv substans i prov som har provstorleken (i kg) och är de granulära provpartiklarnas diameter vid övre 95 % gränsen av fördelningsfunktionen.

pm 95,0d

Vi kan då (Gy, 1992) skriva för faktorn K i ekvation (1.15)

⎥⎥

⎢⎢

⎡⋅⎟⎟⎠

⎞⎜⎜⎝

⎛−⋅⎟

⎟⎠

⎞⎜⎜⎝

⎛+⋅⎟

⎟⎠

⎞⎜⎜⎝

⎛−⋅⋅⋅⋅= aktp

ggtotp

gg cc

cc

cc

cc

dLgfK ,

2

,

2

95,0

11 ρρ (1.17)

9

Page 10: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

där totp ,ρ är densiteten för de granulära partiklarna, och aktp,ρ är densiteten för de ak-tiva kornen.

Ekvationen (1.17) är analog med ekvation (1.16) för det fall att , 95,0dL =

aktptotp ,, ρρ = och . %100=gc

1.6 Beaktande av analysstandardavvikelsen Den totala experimentella standardavvikelsen sammansätts både av analysstan-dardavvikelse, , och provtagningsstandardavvikelse. Standardavvikelser är inte ad-ditiva men varianserna (= standardavvikelsernas kvadrater) kan adderas och subtrahe-ras.

exp,totsas

Om vi t.ex. känner till analysstandardavvikelsen och mäter den totala standardavvi-kelsen, kan den experimentellt erhållna provtagningsstandardavvikelsen beräk-nas enligt

exprs ,

(1.18) 22,

2, atotexpexpr sss −=

Vill vi sedan jämföra denna standardavvikelse med den teoretiskt beräknade kan detta ske som ett F-test. Vi uppställer hypotesen

rs

(1.19) 22, rexpr σσ >

eller vi påstår t.ex. att bulken inte är tillräckligt blandad. Vi beräknar sedan

2

2,

r

exprber s

sF = (1.20)

och jämför det med ett tabellerat F-värde där 1−= Nν

[ ]∞= − ,1 ναFFtab (1.21)

Om det beräknade F-värdet är större än det tabellerade F-värdet accepteras hypotesen annars förkastas den.

Exempel

För att höja kopparhalten i ett konstgödselmaterial, inblandas kopparsulfat före bland-ningen granuleras. Man vill veta hur bra blandningsprocessen fungerar och tar därför 20 prov av den färdiga konstgödseln. Varje prov är av storleken 5 kg. Man erhåller en medelhalt av 0,020 % Cu och standardavvikelsen mellan proven är 0,015 % Cu. Kan man anse att blandningsprocessen fungerar tillfredställande?

Litteratur:

Gy, P. M.: Sampling of Heterogenous and Dynamic Material Systems, Elsevier Ams-terdam, 1992.

10

Page 11: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

1.7 Poissonfördelningen Om vi återkallar i minnet exemplet med att plocka flis ur en ränna och räkna hur många ”svarta” med bark på som vi hittar, beskrevs sannolikheten att hitta precis x stycken svarta i ett prov av storleken n flisor, om medelhalten svarta i satsen är p (an-tal svarta dividerat med antal flisor för hela lagret), med ekvationen

( ) xnx ppxn

xf −−⎟⎟⎠

⎞⎜⎜⎝

⎛= 1)(

Om vi nu tänker oss att flisorna är mycket mycket små, d.v.s. n går mot oändligt och p är mycket lågt (mycket liten andel ”svarta” i lagret) och vi tänker oss att provet samlas under en viss tid , blir det ändå väldigt många svarta eftersom väntevärdet t∆ pn=µ . Vi kan jämföra det med trafikolyckor som kan hända under en viss tid, säg ett vecko-slut, det finns många bilar och bara en liten andel som kör krock, men antalet kan ändå vara stort.

Sannolikheten för exakt x svarta i provet eller x trafikolyckor kan nu med Poissons omformning av binomialfördelningen beräknas utan att man känner till n eller p sepa-rat, det räcker att man känner till väntevärdet µ d.v.s. hur många svarta man i medel-tal borde få i provet, eller hur många trafikolyckor det i medeltal sker under tiden . t∆

!)(

xexp

xµµ−=

Den kumulativa Poissonfördelningen, summan från till för olika värden på

)0(p )(xpµ (betecknas λ i tabellen) finns tabellerad i bilaga 2b. Sannolikheten för att ingen

trafikolycka sker med dödlig utgång under en midsommarhelg, om det normalt dör 4 personer i trafikolyckor under midsommarhelgen, är då

01832,0!0

4)0(0

4 == −ep

d.v.s. detta sker ungefär vart femtionde år.

Sannolikheten för 8 eller flera dödsfall är följaktligen

05112,005954,010420,015629,0

19537,019537,014653,007362,001832,01)7()6()5()4()3()2()1()0(1)10()9()8(

=−−−

−−−−−=−−−−−−−−=+++ ppppppppppp K

d.v.s. detta kan ske vart tjugonde år.

Poissonfördelningen utnyttjas vid dimensionering av dataväxlar och lagerhållning och är därför speciellt viktig för datasnubbar. Sök på nätet med ”queuing theory” så hittar ni litteratur. Köteori är nämligen en viktig tillämpning av poissonfördelningen.

11

Page 12: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Exempel

I ett laboratorieexperiment passerar i medeltal fyra radioaktiva partiklar en räknare under en millisekund. Hur stor är sannolikheten för att sex sådana partiklar passerar räknaren under en given millisekund?

Vi vet att och 6=x 4=µ

1042,0!6

4)6(6

4 == −ep

Vi kan lösa problemet genom att använda oss av tabellen för den kumulativa distribu-tionsfunktionen

1042,07851,08893,0)4;()4;()6(5

0

6

0

=−==−== ∑∑== xx

xpxpp µµ

Exempel

Varje dag anländer i medeltal tio oljetankers till en hamn. Hamnen kan klara maxi-malt femton tankers per dag. Hur stor är sannolikheten att hamnen under en given dag inte klarar av alla tankers?

Låt x vara antalet tankers som anländer per dag. Vi kan tänka oss att sannolikheten för fler är 15 tankers per dag är komplementet till sannolikheten för 15 eller färre tankers per dag enligt

9513,0)10;()15(

)15(1)15(15

0===≤

≤−=>

∑=x

xpxp

xpxp

µ

och

0487,09513,01)15( =−=>xp

1.7.1 Industriell tillämpning av Poissonfördelningen Poissonfördelningen används för att beskriva situationer där man kan räkna antalet gånger en speciell händelse sker inom ett specifierat intervall. Intervallet beror på vil-ket typ av händelse det är som räknas.

I de flesta fall är det fråga om ett rymdintervall som representerar en fysisk region (t.ex. en yta hos en bildörr som testas för målningsfel etc.). Det kan också vara fråga-om ett tidsintervall (t.ex. en vecka under vilken man räknar antalet verktyg som skick-as till service).

När händelser sker på ett sånt sätt att sannolikheten för att observera x händelser i in-tervallet beskrivs av ekvationen som getts tidigare sägs händelserna utgöra en Pois-sonprocess.

12

Page 13: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

”Antalet gropar per km väg, antalet olyckor per vecka på en speciell plats, dagligt be-hov av komponenter från lagret, antalet haverier hos ett system eller en komponent” är exempel på beräkningar som väldigt nära följer en Poissonprocess och därför kan den användas som en mycket god modell för teoretiska studier inom underhållsled-ning.

Exempel

Man har funnit att en viss del av ett system går sönder i medeltal två gånger per dag. Under antagande att detta är en Poissonprocess vill ledningen avgöra behovet av re-surser för att verkstaden skall klara att åtgärda haverierna.

Om man antar 5 arbetsdagar i veckan, hur stor är sannolikheten för att

a) exakt 10

b) mer är 15

haverier sker under en arbetsvecka?

Med i medeltal två haverier per dag kan 1025 =⋅ haverier i medeltal väntas per vecka.

a) 10=µ , 10=x

125,0!10

10!

)10(10

10 === −− ex

epxµµ

81125,0 = , vilket betyder att man kan vänta sig att 10 haverier sker under en

vecka av åtta under en längre period.

b) 10=µ , 15>x

049,0913,01)15(1)15(

913,0)()15(

)15(1)15(15

0

=−=≤−=>

==≤

≤−=>

∑=

xpxp

xpxp

xpxp

x

Slutsats: Om underhållsavdelningen har 50 % extra kapacitet (10 haverier i medeltal men klarar 15) borde avdelningen vara överbalastad endast under 5 % (0,049) av året (5 veckor under en tvåårsperiod).

13

Page 14: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

2

2.1

Mätvärdens stokastiska egenskaper

Några definitioner Då man upprepar försök under lika processförhållanden erhålls i regel mätvärden, som inte är identiska. Variationerna i mätvärdena beror dels på att alla variabler som påverkar den uppmätta variabeln i processen inte alltid har kunnat hållas helt konstan-ta och dels på att mätvärdet alltid varierar slumpmässigt beroende på tillfälligheter i processen. Vi frånser till en början den första variationsorsaken, som uppenbarligen innehåller information om processen. Den senare nämnda slumpartade variationen ger oss anledning att kalla variationen en stokastisk variabel.

Det verkliga värdet av en stokastisk variabel kan aldrig bestämmas experimentellt, men man förutsätter dock att det existerar. Med ett stokastisk fel eller en stokastisk avvikelse avses skillnaden mellan det uppmätta värdet och det verkliga värdet. Detta förutsätter, att man inte samtidigt har ett systematiskt fel i mätningen som upprepas i varje mätning och kan bero på felaktigt kalibrerade instrument eller på förutfattade åsikter om den uppmätta variabelns värde hos den som utför mätningen. I detta sam-manhang kan det vara skäl att påminna om, att med noggrannhet (accuracy, tarkkuus) avses hur nära de uppmätta värdenas medelvärde ligger det verkliga värdet, medan med precision (precision, täsmällisyys) avses hur nära de uppmätta värdena ligger de-ras eget medelvärde. Om µ är ”verkligt” värde och är mätningar från vilka ix x är beräknat kan man säga att lågt värde på )( µ−x betyder god noggrannhet medan lågt värde på alla )( xxi − betyder god precision.

Man kan med fog påstå, att samtliga i tekniska sammanhang förekommande kontinu-erliga variabler är stokastiska variabler. I en del fall är den stokastiska avvikelsen av negligerbar storlek och storheten kan uppfattas som en deterministisk variabel, som kännetecknas därav, att den kan tillskrivas ett bestämt matematiskt sett exakt värde. I många fall är processvariablernas stokastiska natur en påfallande, konkret verklighet.

2.2 Den stokastiska variabelns frekvens och fördelnings-funktion

Värdet av en stokastisk storhet kan inte ges med ett enda tal, emedan det varierar slumpmässigt kring något centralt värde. Teoretiskt kan man tänka sig att samtliga värden, totalantal värden = n, som en stokastisk variabel antar, registreras. Samtliga dessa värden antas falla inom intervallet . Mätresultaten utmärkes på en x-axel.

);( 0 mxx

Ifall antalet mätvärden infaller inom ett delintervall in∆ );( iii xxx ∆+ är mätvärdes-tätheten inom detta intervall ii xn ∆∆ . Divideras denna mätvärdestäthet med totala antalet mätvärden n fås den relativa mätvärdestätheten eller mätvärdesfrekvensen

i intervallet )( ixf );( iii xxx ∆+

i

ii x

nnxf

∆∆

=)( (2.1)

14

Page 15: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

vilken likhet även kan skrivas

iii nn

xxf ∆=∆1)( (2.2)

I många böcker och i kommersiella dataprogram kallas ofta termen nni∆ för relativ frekvens och denna är alltså dimensionslös i motsats till mätvärdesfrekvensen som har dimensionen )dim(1 x .

Om med och vardera ledet av likheten (2.2) summeras över alla i fås

1−−=∆ iii xxx mi ...,,3,2,1=

∑∑==

∆=∆m

ii

m

iii n

nxxf

11

1)( (2.3)

Summauttrycket i högra ledet är definitionsmässigt lika med n, varför högra ledet av (2.3) blir lika med 1. Ifall x har en kontinuerlig frekvensfunktion och om

, så att varje övergår vänstra ledet av (2.3) till en bestämd integral och man får

)(xf∞→m 0→∆ ix

(2.4) ∫ =mx

x

dxxf0

1)(

Sannolikheten för att mätvärdet skall ligga inom intervallet iF∆ ix∆ är

nn

F ii

∆=∆ (2.5)

eller enligt (2.2)

iii xxfF ∆=∆ )( (2.6)

vilken likhet, om frekvensfunktionen är kontinuerlig, kan skrivas i differential-form

)(xf

dxxfdF )(= (2.7)

då . Härur fås sannlikheten för att ett mätvärde skall fall inom interval-let genom integration

0→∆ ix )(xF);( 0 xx

(2.8) ∫=x

x

dxxfxF0

)()(

Funktionen kallas variabelns frekvensfunktion (frequency function, probability function, probability density function) och dess fördelningsfunktion.

)(xf)(xF

15

Page 16: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Endast om man känner sannolikheten för att en stokastisk variabel skall anta värden inom ett valbart intervall, kan man anse sig helt känna den stokastiska variabeln. Den-na sannolikhet kan man beräkna, om man känner variabelns frekvensfunktion eller dess fördelningsfunktion.

2.3 Väntevärde och varians Ofta är det tillräckligt att känna ett centralt värde på den stokastiska variabeln och ha ett mått på dess variation runt detta centrala värde. Den totala kännedomen i form av en frekvensfunktion ersätts då med två parametervärden, vanligen variabelns vänte-värde och varians.

En skattning x av variabelns väntevärde fås i form av det vägda aritmetiska medelta-let

∑=

∆=m

iii xn

nx

1

1 (2.9)

I denna likhet kan högra ledet genom förlängning med ix∆ skrivas

∑=

∆∆∆

=m

iii

i

i xxx

nnx

1 (2.10)

och då enligt definitionen (2.1) införs fås )( ixf

∑=

∆=m

iiii xxxfx

1

)( (2.11)

Då åter så att samtliga fås väntevärdet ∞→m 0→∆ ix xµ på den stokastiska varia-beln ur (2.11) i enlighet med definitionen på en bestämd integral

(2.12) ∫=mx

xx dxxxf

0

)(µ

En skattning av den stokastiska variabelns varians fås som medeltalet av kva-draterna på de enskilda klassmittvärdenas avvikelse från väntevärdet

2s 2σ

∑=

−∆=m

ixii xn

ns

1

22 )(1 µ (2.13)

Införs åter istället för nni∆ uttrycket ii xxf ∆)( enligt (2.2) samt låter man ∞→m så att samtidigt alla får man följande uttryck för den stokastiska variabelns varians

0→∆ ix

(2.14) ∫ −=mx

xx dxxxf

0

22 )()( µσ

16

Page 17: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Begrepp som är synnerligen centrala i alla statistiska sammanhang, och som ofta missbrukas (lögn, förbannad lögn och statistik) är förutom väntevärde och varians även kovarians och korrelationskoefficient. Ekvationerna (2.12) och (2.14) ger de ma-tematiska definitionerna på väntevärde och varians för variabeln x.

Låt oss därför tänka oss en annan variabel, y, vars väntevärde och varians beskrivs av (2.12) och (2.14) givetvis så att x är ersatt med y i dessa ekvationer. Nu definieras en summavariabel, z, enligt

yxz += (2.15)

Därefter härledes frekvensfunktionen, väntevärdet och variansen för denna summava-riabel

Om , och betecknar frekvensfunktionerna för x, y respektive z så är sannolikheten för att en enskild observation av x skall ligga inom intervallet

)(xf )( yg )(zp

⎭⎬⎫

⎩⎨⎧ ∆± xx

21 lika med xxfF ∆=∆ )(

Sannolikheten för att en enskild observation av y skall ligga inom intervallet

⎭⎬⎫

⎩⎨⎧ ∆± yy

21 lika med yygG ∆=∆ )(

Sannolikheten för att en enskild observation av z skall ligga inom intervallet

⎭⎬⎫

⎩⎨⎧ ∆± zz

21 lika med zzpP ∆=∆ )(

Sannolikheten för att x skall ligga i ovannämnda intervall samtidigt som y ligger i sitt motsvarande intervall kan uttryckas som multiplikation av sannolikheterna enligt san-nolikhetslärans multiplikationsprincip (jfr. vid kast av två tärningar är sannolikheten för en sexa på båda tärningarna samtidigt 3616161 =⋅= )

{ } GFyyyxxxP ∆⋅∆=∆±=∆±= ;

denna sannolikhet är samtidigt sannolikheten för att ett visst värde på z skall uppträda eller att z ligger i sitt ”eget” intervall. Härav inses lätt att

GFP ∆⋅∆=∆ (2.16)

Insättes därefter de tidigare härledda uttrycken för intervallsannolikheterna samtidigt som man låter intervallbredderna gå mot noll erhålles

dyygdxxfdzzp )()()( ⋅= (2.17)

17

Page 18: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Nu utnyttjas definitionen på väntevärdet enligt (2.12) för z samtidigt som nedre grän-sen sättes till och övre gränsen till ∞− ∞+ vilket leder till

∫ ∫ ∫∞

∞−

∞−

∞−

⋅=⋅= dydxygxfzdzzpzz )()()(µ

som utvecklas till

∫ ∫ ∫ ∫⋅+⋅= dxxfdyygydyygdxxfxz )()()()(µ

där integrationsgränserna är de samma som tidigare. Eftersom integralerna över respektive båda = 1 kvarblir integralerna över respektive

och dessa utgör ju definitionen på väntevärdet för x respektive y. Vi får då dxxf )( dyyg )( dxxfx )(

dyygy )(

yxz µµµ += (2.18)

För en stokastisk variabel som är summan av två andra stokastiska variabler är vänte-värdet summan av de två variablernas väntevärde, och detta är ju självklart egentligen. Betydligt mindre självklar är däremot variansen för summavariabeln. Den beräknas enligt

∫∞

∞−

−= dzzpz zz )()( 22 µσ

Kombinerar vi uttrycken (2.15), (2.17) och (2.18) och beaktar att

( ) ( ) ( ) ( ) ( )yxyxz yxyxz µµµµµ −⋅−⋅+−+−=− 2222

erhålles

( ) ( ) ( )( )∫ ∫ ∫∫ −−⋅+−+−= dydxygxfyxdyygydxxfx yxyxz )()(2)()( 222 µµµµσ

där de två första termerna lätt igenkänns som variansen för x respektive y och den sis-ta termen betecknas enligt nedan

xyyxz σσσσ ⋅++= 2222

Termen xyσ kallas kovariansen för variablerna x och y och har följande egenskaper: Dess enhet är enheten för x gånger enheten för y, den antar värdet noll on x och y va-rierat helt oberoende av varandra, men antar ett värde större eller mindre än noll om x och y förklarat varandra positivt respektive negativt.

Kovariansen kan skattas som medelvärdet av den ”blandade” produkten

18

Page 19: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

∑=

−−=n

iiixy yyxx

n 1

)()(1)est(σ

och den är då ett mått på huruvida variablerna förklarar varandra eller inte.

Eftersom kovariansen är dimensionell är det av praktiska skäl bättre att övergå till att beräkna korrelationskoefficienten vilken definieras som kovariansen av de normerade storheterna

x

xxX

σµ−

= respektive y

yyY

σµ−

=

och den skattas normalt genom att man beräknar

∑ ∑

= =

=

−⋅−

−−=

n

i

n

iii

n

iii

xy

yyxx

yyxxr

1 1

22

1

)()(

)()( (2.19)

Korrelationskoefficienten närmar sig värdet 0 om variablerna inte förklarar varandra, värdet +1 vid positiv korrelation, och -1 vid negativ korrelation.

Det bör observeras, att den med ekvation (2.19) beräknade korrelationskoefficienten inte i regel (fast nog går det att göra om man även beaktar värdet på n), skall användas för signifikanstester av samband. Om mätvärdena är alltför få, kan man få hög korre-lation på grund av slumpen.

Man ser ofta ekvation (2.19) skriven i ”beräkningsvänlig form” med separerade kva-dratsummor av variablerna. Dessa formler skall man inte använda! De kan nämligen ge mycket stora aritmetiska fel då stora talvärden (kvadratsummor) skall subtraheras från varandra.

Korrelationskoefficienten ger ett bra riktvärde för om variabler förklarar varandra och är därför viktig vid utvärdering av försöksplaner (kapitel 9) och vid analys av datama-triser för regressionsanalys (kapitel 8).

En speciell och mycket viktig tillämpning är tidsserieanalys med auto- och korskorre-logram (kapitel 11).

Eftersom korrelationskoefficienten om den är positiv respektive negativ endast utsä-ger om talvärden i en sifferserie båda ökar (positiv korrelation) eller om den ena ökar då den andra minskar (negativ korrelation) då man går mot slutet av sifferserien, men inte säger om detta fenomen har ett kausalitetsförhållande (fysiskt samband) får man inte dra långt gående slutsatser av beräknade korrelationskoefficienter. Missbruk av korrelationskoefficienter är bakgrunden till statistikens dåliga rykte (”med statistik kan man bevisa vad som helst”).

19

Page 20: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Exempel (badvattenexemplet): Det är farligt att dricka Coca-Cola före man hoppar i sjön, det finns nämligen positiv korrelation på hela 0,83 mellan Coca-Cola-försäljningen och drunkningsfrekvensen. Det är dessutom farligare att simma i varmt vatten än i kallt; det finns en mycket hög positiv korrelation mellan havsvattentempe-raturen och drunkningsfrekvensen vid ifrågavarande badplats.

Ovanstående exempel inser man ju att är galet, men om den undersökta processen är komplicerad, kan man råka ut för liknande fel vid tekniska undersökningar på dok-torsnivå, tyvärr.

2.4 Skattningen av väntevärdet och variansen Man finner att man bör känna den kontinuerliga stokastiska variabelns frekvensfunk-tion för att kunna beräkna både variabelns väntevärde enligt (2.12) och dess va-rians enligt (2.14). Normalt är emellertid frekvensfunktionen för stokastiska variabler inte känd. Varken väntevärdet eller variansen kan då beräknas, utan man får ty sig till skattningar av dessa. Skattningarna beräknas ur ett begränsat antal värden – ett urval – som man slumpmässigt genom mätning erhållit på den stokastiska variabeln. Emedan dessa mätvärden med all sannolikhet inte skulle upprepas i ett nytt urval inses, att skattningar av väntevärdet och variansen är stokastiska storheter. Däremot är själva väntevärdet och variansen enligt (2.12) och (2.14) deterministiska parametrar.

)(xf

Skattningen av väntevärdet beräknas enligt (2.9), som även kan skrivas på följande sätt, om klassning av mätvärdena inte skett

∑=

=n

iix

nx

1

1 (2.20)

Skattningen av variansen kan beräknas med formeln

∑=

−−

=n

ii xx

nxs

1

22 )(1

1)( (2.21)

Observera, att i nämnaren till (2.21) ingår termen 1−n istället för n, som är totala an-talet mätdata i urvalet, d.v.s. antalet informationer om variabelns värde. Vid beräk-ningen av x är totala antalet informationer lika med n. Då x används vid beräkning-en av och information om variabelns värde utnyttjas vid beräkningen av )(2 xs x kan inte samma antal informationer återstå för beräkningen av , utan detta antal re-duceras med 1. I den matematiska statistiken kallas tillbudsstående informationer även antalet frihetsgrader.

)(2 xs

Den positiva kvadratroten av variansens skattning kallas den stokastiska variabelns standardavvikelse . Även denna är en stokastisk storhet. Vidare kan man visa, att medelvärdets

xsx standardavvikelse xs – även den en stokastisk storhet – kan beräknas

med formeln

20

Page 21: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

n

ss x

x = (2.22)

Formeln (2.22) har en speciell aktualitet vid försöksplanering, emedan man strävar att bestämma skattningar av väntevärden med så liten standardavvikelse (= stor preci-sion) som möjligt med ett rimligt antal försök.

2.5 Normalfördelningen Hittills har inga antaganden gjorts angående formen på den undersökta variabelns fre-kvensfunktion. Man kan alltså skatta väntevärden och beräkna standardavvikelser för stokastiska storheter utan att känna deras frekvensfunktioner. Först sedan man känner eller kan anta formen på frekvensfunktionen, kan man emellertid fullt utnyttja dessa beräknade skattningar.

Ifall den stokastiska variabeln är stationär, d.v.s. dess frekvensfunktion är oberoende av tiden, kan man ur registrerade data från en längre tidsperiod få en uppfattning om frekvensfunktionen. Tyvärr är få i industriella sammanhang förekommande stokastis-ka variabler stationära.

Som vägledning vid bedömningen av formen hos frekvensfunktionen hos stokastiska variabler kan man emellertid utnyttja ett centralt teorem ur den matematiska statisti-ken. Detta teorem innebär, att fördelningsfunktionen för en summa av k av varandra oberoende stokastiska variabler övergår i normalfördelningsfunktionen, då k ökar och detta under tämligen allmänna villkor, av vilka de viktigaste är att summans varians skall gå mot oändligheten och kvoten mellan variansen för varje i summan ingående variabel och summans varians skall gå mot noll, då k går mot oändligheten. Mera kva-litativt uttryckt betyder detta att en variabel är praktiskt taget normalfördelad, ifall dess värde beror på ett tillräckligt stort antal av varandra oberoende inflytelser, av vilka ingen är dominerande.

Med normalfördelning avses en fördelning som har frekvensfunktionen

⎥⎦

⎤⎢⎣

⎡ −−= 2

2

2)(

exp121)(

σµ

σπxx

xf (2.23)

I formeln (2.23) är xµ den stokastiska variabelns väntevärde och dess varians. Man finner att en kännedom om dessa två parametrars värden är tillräcklig för att fre-kvensfunktionen (2.23) skall vara entydigt känd.

Ekvation (2.23) kan härledas matematiskt från binomialfördelningen och har därför en solid teoretisk bakgrund.

Många i praktiken förekommande stokastiska variabler kan med tillräckligt nog-grannhet anses vara normalfördelade.

21

Page 22: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Då man har att göra med icke normalfördelade variabler måste man finna ett matema-tiskt uttryck som beskriver dess frekvensfunktion eller fördelningsfunktion, om man på matematisk väg vill analysera variabelns egenskaper. Denna funktion kan i all-mänhet endast erhållas genom att anpassa en vald matematisk funktion till en empi-riskt erhållen skattning av fördelnings- eller frekvensfunktionen. Detta blir med sä-kerhet en approximation. En annan väg är att istället approximera fördelningen som en normalfördelning, om den inte alltför mycket avviker från denna. Detta är natur-ligtvis ej heller helt korrekt. Det senare alternativet är emellertid tilltalande ur den synpunkten, att man då kan utnyttja de metoder för t.ex. testning av hypoteser, som har utvecklats för normalfördelade variabler. Motsvarande teori finns inte tillgänglig för andra fördelningar.

Då man approximerar en empirisk fördelning med en normalfördelning och tillämpar den matematiska statistikens teori på approximationen, bör man naturligtvis hålla i minnet, att den gjorda approximationen kan göra att man drar felaktiga slutsatser vid analysen.

För praktiska beräkningar med normalfördelningen är det i allmänhet inte lämpligt att använda ekvation (2.23). Betydligt enklare blir det om man betraktar den normerade storheten X som betecknas med u i bilaga 3 enligt

σµ−

=xX (2.24)

Frekvensfunktionen för denna storhet, som har väntevärdet = 0 och variansen = 1 har (i likhet med ekvation (2.23)) härletts från motsvarande normerade storhet för bino-mialfördelningen vilken också har väntevärdet = 0 och variansen = 1

)1( ppn

pnxxX bin−

−=

−=

σµ (2.25)

varvid man kan visa matematiskt att frekvensfunktionen endast är beroende av X och inte av n och p förutsatt att n är mycket stort och att den då erhållna binomia-la frekvensfunktionen är lika med frekvensfunktionen för den normerade storheten av en sådan kontinuerlig variabel som påverkas av ett stort antal, av varandra oberoende faktorer. Denna frekvensfunktion kan skrivas

)( binXf

[ ]25,0exp21)()()( XXXfXf bin ⋅−===π

ϕ (2.26)

Men det som man behöver är oftast integralfunktionen )(Xφ som betecknas med )(uφ i bilaga 3 enligt

[ dxXdxXXX X

∫ ∫∞− ∞−

⋅−== 25,0exp21)()(π

ϕφ ] (2.27)

22

Page 23: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Denna integral uttrycker helt enkelt sannolikheten för att en enskild observations normerade värde skall anta ett siffervärde ≤ X vilket ju är definitionen på fördel-ningsfunktionen för den normerade variabeln.

Eftersom funktionen är symmetrisk behöver man inte tabellera integralen för negativa värden på X (x är mindre än µ ) utan tabellen i bilaga 3 startar från värdet

50,0)( =Xφ vid X = 0 varvid övriga värden fås enligt

)(1)( XX φφ −=− (2.28)

Man får inte blanda ihop normalfördelningen som ju uttrycker fördelningen av enskil-da observationer med t-fördelningen som uttrycker medelvärdets fördelning, eller med

-fördelningen som ju uttrycker variansens fördelning. 2χ

Exempel:

Man tar från ett stort parti cementsäckar ett prov från varje säck och bestämmer tryckhållfastheten i laboratoriet. Man erhåller 300== µx och 10==σs i enheten kp/cm2. Genom det stora antalet prov kan man anse att det aritmetiska medelvärdet väl representerar väntevärdet, och att den skattade standardavvikelsen, s, representerar den verkliga standardavvikelsen σ .

a) Om man nu köper en enda säck, vilken är sannolikheten att man råkat få en säck med tryckhållfastheten ? 280≤

b) Om man köper 1000 säckar, hur många säckar har en tryckhållfasthet i det önska-de kvalitetsintervallet 320280 ≤≤ x ?

Lösning:

a) Vi kan nu direkt utnyttja definitionen på integralfunktionen och skriva

023,0977,01)2(1)2(10

300280)(tsannolikhe =−=−=−=⎟⎠⎞

⎜⎝⎛ −

== φφφφ X

b) Sannolikheten för intervallet är integralytan under frekvensfunktionen bildad mel-lan övre och undre värdet för den normerade funktionen, eller

95,0023,0977,0))2(1()2()2()2(10

30028010

300320tsannolikhe

=−=−−=−−=

⎟⎠⎞

⎜⎝⎛ −

−⎟⎠⎞

⎜⎝⎛ −

=

φφφφ

φφ

Det är alltså ca 95 % av säckarna eller 950 säckar som befinner sig inom det fastslag-na kvalitetsintervallet. Man brukar säga att 95 % av de enskilda observationerna teore-tiskt finns inom medelvärdet plus minus 2 gånger standardavvikelsen. Men i verklig-heten är det inte så enkelt, vilket följande kapitel skall visa.

23

Page 24: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

3

3.1

Medelvärden och snedfördelning

Normalfördelningens begränsningar Normalfördelningen runt ett aritmetiskt medelvärde betyder att variabeln kan variera på samma sätt under sitt medelvärde som ovan detsamma. Detta är emellertid omöjligt för många tekniska storheter. En låg koncentration av en substans i miljön, säg 4 ppm (parts per million) kan variera så att den har en standardavvikelse beräknad på dygnsmedelvärden på 2,5 ppm. Normalfördelningen skulle då utsäga att 95 % av ob-servationerna skulle ligga i intervallet -1 ppm till 9 ppm vilket är omöjligt eftersom det inte existerar negativa koncentrationer. Storheten är därför snedfördelad och fre-kvensfunktionen startar från , 0=x 0)( =xf .

Situationen är densamma t.ex. för partiklar och droppar (det finns ej partiklar med ne-gativ diameter) och frekvensfunktionen för deras diameter startar även den från

, . )(Df

0=D 0)( =Df

3.2 Logaritmisk normalfördelning Den s.k. logaritmiska normalfördelningen är den mest använda fördelningen för sned-fördelade storheter. Utsignalen från mätinstrument som mäter partikeldiameter (t.ex. MALVERN laserdiffraktometer) ger också helt rutinmässigt ut fördelningsfunk-tionen så att diameterskalan är logaritmisk. En annan använd frekvensfunktion är kva-dratrot-normalfördelning.

Vi vet, att om den stokastiska variabeln betecknas x, dess väntevärde µ , och dess standardavvikelse σ , kan en normerad storhet, X, med väntevärdet = 0 och standard-avvikelsen = 1 definieras enligt

σµ−

=xX (3.1)

och denna har frekvensfunktionen

⎥⎦

⎤⎢⎣

⎡−=

2exp

21)(

2XXπ

ϕ (3.2)

Vi vill nu bilda ett uttryck för frekvensfunktionen utgående från att variabelns logaritm är normalfördelad vilket skulle ge en struktur på funktionen som bättre över-ensstämmer med praktiken. Vi definierar då den normerade variabeln i stället utgåen-de från logaritmerade värden enligt

)(xf log

σ

µln

lnln −=

xX (3.3)

och anser att denna är normalfördelad med en frekvensfunktion enligt ekvation (3.2).

24

Page 25: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Enligt definitionen på frekvensfunktion måste sannolikheten för att ett x-värde skall befinna sig i intervallet dx vara lika med sannolikheten för ett X-värde i intervallet dX, eller

dXXdxxf log )()( ϕ= (3.4)

d.v.s.

dxdXXxflog )()( ϕ= (3.5)

Derivering av ekvation (3.3) ger

x

xdxdx

dxd

dxdX 1

ln1

lnln

lnln

lnlnln

⋅=⎟⎠⎞

⎜⎝⎛ −=⎟

⎠⎞

⎜⎝⎛ −

=σσ

µσσ

µ (3.6)

Kombinationen med ekvationerna (3.2) och (3.3) ger slutligen

⎥⎥⎦

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛ −

−⋅⋅⋅=2

lnlnln

21exp1

ln1

21)(

σµ

σπx

xxflog (3.7)

varvid bör observeras att µ inte längre kan skattas med (2.20) utan man måste gå via logaritmen (se 3.19). σ är inte heller skattningsbart med (2.21) utan med (3.20).

3.3 Exempel på medelvärdesbildning och snedfördelning Som exempel på medelvärden och snedfördelning tas diametern för partiklar eller droppar. Samma resonemang kan tillämpas även för andra tekniska snedfördelade storheter. Alltså i stället för x användes här D men det är samma sak.

Man definierar ett diameterintervall iD∆ för partiklarna och anger hur stor andel av partiklarna som har en diameter inom detta intervall. Om man mätt hur stor vikt- eller volymandel som finns i intervallet betecknas denna med . Om man däremot mätt hur stor antalsandel t.ex. genom att använda en apparat som räknar partiklarna be-tecknas antalsandelen med . Är det fråga om strömmande partiklar eller droppar (t.ex. spraymunstycke, ström av stoft ut genom en skorsten) skall dessutom och definieras per tidsenhet. Man talar då om viktströmandel respektive antalsströmandel.

iZ

iSiZ iS

Antalet klasser betecknas n och index i, ni ...,,3,2,1= betecknar klassens nummer så att betecknar klassen för den minsta diametern och 1=i ni = klassen för den största diametern. Vidare betecknas alltså klassmedeldiametern med och klassbredden med . Volymen eller massan (-strömmen) partiklar/droppar av motsvarande klass betecknas och den totala volymen eller massan (-strömmen) stoft/vätska beteck-nas .

iDiD∆

iV∆TOTV

25

Page 26: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Från dessa värden kan enkelt beräknas antalet (-strömmen) partiklar/droppar av mot-svarande klass, iN∆ samt genom summering av dessa fås det totala antalet (-strömmen) partiklar/droppar . Dropparnas form måste vara känd, normalt anses de vara sfäriska.

TOTN

Vi definierar volym- eller viktandelen enligt iZ

TOT

ii V

VZ

∆= (3.8)

som alltså är analog med nn

iiF ∆=∆ då in∆ är antalet observationer i intervallet (inte

antal partiklar) i föregående avsnitt och uttrycker sannolikheten för att en observation skall ligga intervallet , samt antalsandelen iD∆ iS

∑=

=∆

= n

iii

ii

TOT

ii

DZ

DZN

NS

1

3

3

(3.9)

Den relativa mätvärdesfrekvensen i avseende på volym- eller vikt (-ström), , defini-eras enligt

if

i

ii D

Zf

∆= (3.10)

och den relativa mätvärdesfrekvensen i avseende på antal (ström), , ip

i

ii D

Sp

∆= (3.11)

Om nu ett stapeldiagram konstrueras med eller versus if ip iD∆ kommer summan av alla staplars ytor att vara = 1 och fördelningsfunktionen eller summafunktionen bil-das av den kumulativa summan av stapelytorna.

Om en kontinuerlig frekvensfunktion anpassas till det stapeldiagram som bildas av kan integralen av denna funktion mellan och anses uttrycka sanno-likheten för att en delvolym (-ström) skall ha en medeldiameter som ligger mellan

och .

)(Dfif minD maxD

minD maxD

Om man antar en viss struktur för frekvensfunktionen kan man utnyttja normalfördel-ningen vars förlopp kan skattas från de medelvärden som kan beräknas från mätdata. Om mätdata transformeras t.ex. genom kvadratrotsberäkning eller logaritmering kan normalfördelningen för transformerade data jämföras med de uppmätta relativa mät-värdesfrekvenserna.

26

Page 27: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

3.4 Allmänt använda definitioner på medelvärden Från mätdata kan man beräkna medelvärden på olika sätt. Här presenteras några van-liga definitioner på medelvärde. Vi ser att det som man i dagligt tal kallar ”medelvär-de och spridning” i själva verket inte alls är entydiga begrepp.

Mediandiameter i avseende på vikt/volym(-ström), är den diameter vid vilken lika stor vikt/volym (-ström)andel droppar ligger över som under detta värde.

MVD

Mediandiameter i avseende på antal(-ström), är den diameter vid vilken lika stor antalsström droppar ligger över som under detta värde.

MND

Sauter medeldiameter, SD är diametern för de lika stora droppar som skulle ha ge-nererat en lika stor yta (per tidsenhet) som den aktuella sprayen, eller,

∑=

= n

iii

S

DZD

1

1 (3.12)

I den kemiska reaktionstekniken är Sauter medeldiameter användbar i det fall att den kemiska reaktionen sker på ytan, t.ex. när det är fråga om en pulverformig katalysator.

Aritmetisk medeldiameter i avseende på vikt/volym(-ström), VaD , är det med vikt/volym(-ström)andelarna vägda aritmetiska medelvärdet enligt,

∑=

⋅=n

iiiVa DZD

1, (3.13)

En skattning av aritmetisk standardavvikelse i avseende på vikt/volym(-ström), , beräknas enligt

Vas ,

( )∑=

−⋅=n

iVaiiVa DDZs

1

2,, (3.14)

Därefter kan den normalfördelade frekvensfunktionen nu estimeras enligt )(, Df Va

⎥⎥

⎢⎢

⎟⎟⎠

⎞⎜⎜⎝

⎛ −⋅−⋅⋅=

2

,

,

,, 2

1exp121)(

Va

Va

Vava s

DDs

Dfπ

(3.15)

Denna fördelning är olämplig för att beskriva frekvensfunktionen för snedfördelade storheter.

Aritmetisk medeldiameter i avseende på antal(-ström), NaD , motsvarande skatt-ning av standardavvikelsen, , samt frekvensfunktionens estimat, , beräknas i likhet med (3.13) och (3.14), varvid ersättes med .

Nas , Naf ,

iZ iS

Kvadratrotsmedeldiameter i avseende på vikt/volym(-ström), VsqrtD , beräknas en-ligt

27

Page 28: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

2

1, ⎟

⎞⎜⎝

⎛⋅= ∑

=⋅

n

iiiVsqrt DZD (3.16)

Motsvarande skattning av standardavvikelsen, beräknas enligt Vsqrts ,

( )2

1

2

,, ⎥⎦

⎤⎢⎣

⎡−⋅= ∑

=

n

iVsqrtiiVsqrt DDZs (3.17)

Frekvensfunktionens estimat för normalfördelningen av den med kvadratrotsberäk-ning omformade variabeln , eller kvadratrotsfördelningens frekvensfunktion kan skrivas

)(, Df Vsqrt

⎥⎥⎥

⎢⎢⎢

⎟⎟

⎜⎜

⎛ −−⋅

⋅⋅⋅=

2

,

,

,, 2

1exp22

1)(Vsqrt

Vsqrt

VsqrtVsqrt s

DD

DsDf

π (3.18)

Kvadratrotsmedeldiameter i avseende på antal(-ström), NsqrtD , , motsvarande skattning av standardavvikelsen, samt frekvensfunktionens estimat, be-räknas i likhet med (3.16), (3.17) och (3.18), varvid ersätts med .

Nsqrts , Nsqrtf ,

iZ iS

Logaritmisk medeldiameter i avseende på vikt/volym(-ström), VDlog, beräknas en-ligt

⎥⎦

⎤⎢⎣

⎡⋅= ∑

=

n

iiiV DZD

1log, )ln(exp (3.19)

Motsvarande skattning av logaritmisk standardavvikelse, beräknas enligt Vslog,

( )⎥⎥⎦

⎢⎢⎣

⎡−⋅= ∑

=

n

iViiV DDZs

1

2log,log, lnlnexp (3.20)

Frekvensfunktionens estimat för normalfördelningen av den med logaritmering om-formade variabeln, , eller den logaritmiska fördelningens frekvensfunktion kan skrivas

)(log, Df V

⎥⎥

⎢⎢

⎟⎟⎠

⎞⎜⎜⎝

⎛ −⋅−⋅⋅⋅=

2

log,

log,

log,log, ln

lnln21exp1

ln1

21)(

V

V

VV s

DDDs

Dfπ

(3.21)

Logaritmisk medeldiameter i avseende på antal(-ström), NDlog, , motsvarande skattning av standardavvikelsen, , samt frekvensfunktionens estimat, be-räknas i likhet med (3.19), (3.20) och (3.21), varvid ersätts med .

Nslog, Nf log,

iZ iS

28

Page 29: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Exempel

Industriellt producerad släckt kalk, Ca(OH)2 (s), skall användas för bindning av sva-veldioxid i en industriell process. Man måste därför känna till kalkens struktur mycket bra för att kunna dra slutsatser om reaktionsyta etc. Man mäter därför fördelnings-funktionen för partikelstorleken i avseende å vikt med en mätapparat och erhåller

%)/)(µm/( DFD −

(192 – 100) (128 – 100) (96 – 98,6) (64 – 94,1) (48 – 93,1)

(32 – 83,2) (24 – 76,3) (16 – 65,1) (12 – 56,3) (8 – 43,0)

(6 – 34,7) (4 – 24,7) (3 – 18,8) (2 – 11,8) (1,5 – 6,8) (1 – 5,0)

1. Upprita fördelningsfunktion i avseende på vikt. 2. Konstruera frekvensfunktionen i avseende på vikt och upprita nytt diagram

(stapeldiagram). Observera division med intervallbredden! 3. Beräkna mediandiameter i avseende på vikt. 4. Beräkna Sauter medeldiameter. 5. Beräkna aritmetiskt medelvärde i avseende på vikt. 6. Beräkna aritmetisk standardavvikelse i avseende på vikt. 7. Upprita i samma diagram som punkt 2. )(, Df Va

8. Beräkna logaritmisk medeldiameter i avseende på vikt. 9. Beräkna logaritmisk standardavvikelse i avseende på vikt. 10. Upprita i samma diagram som punkt 2. Vf log,

11. Konstruera fördelningsfunktionen i avseende på antal. 12. Konstruera frekvensfunktionen i avseende på antal och upprita nytt diagram

(stapeldiagram). 13. Beräkna aritmetiskt medelvärde i avseende på antal.

4 Varaktighetskurvor Storheter som varierar med tiden är t.ex. ångförbrukningen i en fabriksavdelning (t/h), utsläpp av kväveoxid från ett kraftverk (kg/h), vindhastigheten i en mätpunkt (m/s), uteffekten från ett vindkraftverk (kW eller kJ/s), förlustenergiströmmen ut från en pappersmaskin (MJ/h), elförbrukningen i en fabriksavdelning (MW), halten svaveldi-oxid i luften vid Nylandsgatan i Åbo (ppm) mm.

Om man uppritar storheten som här allmänt betecknas med x (t.ex. från en linjeskriva-re, från snabbt dataloggade punkter, som 15-minuters medelvärde, tim-medelvärde, dygnsmedelvärde etc.) som funktion av tiden t erhåller man ett diagram med en kurva som går upp och ner på något sätt. Storheten avbildas så att x graderas från 0 till och t graderas från o till .

maxxmaxt

Varaktighetskurvan konstrueras så, att tidskurvan tänkes som ett stapeldiagram (om den inte redan är presenterad som ett sådant), och staplarna radas i storleksordning med den största stapeln först. En avläsning på t-axeln som motsvaras av en punkt

på x-axeln uttrycker då den tid under vilken x har varit > . Ordet ”varaktighet” kommer från elektrotekniken där varaktighetskurvor användes i många olika sam-manhang och den avlästa tiden kallas ”toppens varaktighet”.

vartvx vx

29

Page 30: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

En allmän tillämpning av varaktighetskurvan är bedömning av olika eltariffer (Åbo-kemisternas sång ”Vi vet hur man skall köpa billig ström...”). Eftersom integralen av (ytan under) varaktighetskurvan för tidsintensiva storheter (kg/h, MW etc.) uttrycker totala mängden under tidsintervallet (utsläppt mängd i kg, energi i MWh) är känne-dom om varaktighetskurvan viktig.

I europeisk miljölagstiftning begränsas miljöfarliga utsläpp så att vissa toppar bara får förekomma vissa tider och man kräver (Großfeuerungsverordnung i Tyskland) att fa-brikernas miljöövervakningsdator presenterar varaktighetskurvor och de från dessa kurvor beräknade kontrollstorheterna för miljögranskaren.

Om man i stället för dimensionell t-axel tänker sig en dimensionslös axel maxtt kom-mer en avläsning på axeln att uttrycka sannolikheten för . vxx >

Men definitionen på fördelningsfunktionen, , är att fördelningsfunktionen ut-trycker sannolikheten för .

)( vxFvxx <

Sannolikheten för är då vxx > maxv ttxF =− )(1 .

Om man (från stickprov, tidigare erfarenheter etc.) känner till väntevärdet xµ och standardavvikelsen xσ och antar att storheten är fördelad på något visst sätt, t.ex. normalfördelad eller logaritmiskt normalfördelad, kan en teoretisk varaktighets-kurva enkelt konstrueras och uppritas. Från ett värde beräknas ett motsvarande tidsvärde, enligt

vxvart

))(1()( vmaxvvar xFtxt −⋅= (4.1)

(4.2) ⎟⎟⎠

⎞⎜⎜⎝

⎛−⋅= ∫

∞−

v

maxvvar dxxftxt )(1)(x

där är frekvensfunktionen för variabeln. Om vi anser att variabeln är normalför-delad kan vi definiera den normerade storheten X enligt

)(xf

σµ−

=xX (4.3)

och denna har frekvensfunktionen

⎥⎦

⎤⎢⎣

⎡−⋅=

2exp

21)(

2XXπ

ϕ (4.4)

Integralfunktionen

(4.5) ∫∞−

=ΦX

dXXX )()( ϕ

finns tabellerad.

30

Page 31: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Från ett givet värde på beräknas alltså X och vx )(XΦ (från tabell) och varaktigheten beräknas från

( ))(1)( Xtxt maxvvar Φ−⋅= (4.6)

Den från normalfördelningen beräknade varaktighetskurvan kan inritas i samma dia-gram som en observerad ”stapeldiagramkurva” för kontroll av normalfördelningen. Visar det sig att man har god överensstämmelse med normalfördelningen kan man utföra beräkningar direkt med teorin för normalfördelning.

Om den intressanta storheten är beräknad från en uppmätt storhet (t.ex. effekten för ett vindkraftverk är proportionell mot vindhastigheten i tredje potens) får man inte dra slutsatser från den uppmätta storhetens varaktighetskurva och medelvärde, utan man måste räkna om varje punkt på varaktighetskurvan.

Om man t.ex. känner medelvärde och standardavvikelse för den storhet som kan mä-tas, kan man konstruera varaktighetskurva för denna med hjälp av normalfördelning-en, och sedan räkna om varje x-värde för att få den nya varaktighetskurvan.

Varaktighetskurvor kan även sammanlagras. Om t.ex. flera fabriksavdelningar kon-sumerar ånga och elektricitet enligt olika varaktighetskurvor (konsumtionskurvor) kan man med matematisk sammanlagring producera de totala kurvorna (behovskurvorna) med vilka sedan fabrikens kraftavdelning styrs och med vilka inköp eller försäljning av energi optimeras. Mera om sådant framkommer i kursen ”Processindustriell energi- och mätteknik”.

Exempel

Inflödet av en mellanprodukt till en kemisk polymerisationsreaktor är i medeltal 14,5 kg/h. Flödet varierar långsamt så man använder tim-medelvärden och reaktorn är i gång ca 1800 h/år. Från ett antal tim-medelvärden han man beräknat att standardav-vikelsen är ungefär 4 kg/h och man anser att mellanproduktflödets tim-medelvärden är normalfördelade.

Utflödet av polymeriserad produkt varierar så att det inte är linjärt beroende av inflö-det av mellanprodukt eftersom utbytet minskar när reaktorn pressas med ett större in-flöde. Genom regressionsanalys har man funnit att utflödet (vid konstanta värden på alla andra processparametrar) kan beskrivas av ekvationen

⎟⎟⎠

⎞⎜⎜⎝

⎛⋅=⎟⎟

⎞⎜⎜⎝

⎛kg/h

.inflln38,2kg/h

.utfl

31

Page 32: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Utför följande beräkningar numeriskt

1. Beräkna totalmängden mellanprodukt (kg) per år. 2. Beräkna och upprita mellanproduktflödets varaktighetskurva. 3. Beräkna och upprita slutproduktflödets varaktighetskurva. 4. Beräkna produktflödets aritmetiska medelvärde och totalmängden produkt (kg)

per år.

5

5.1

Statistiska tester Principen för statistiska tester genomgicks i matematikkurserna. Här presenteras ett litet avvikande schema.

Enskilda observationers fördelning (normal, log-normal) För det mesta kan enskilda observationers fördelning beskrivas antingen med normal-fördelningen eller med logaritmisk normalfördelning.

Den normerade variabeln X kan beräknas enligt

xsxxX −

= (5.1)

där vi alltså använder standardavvikelsen för de enskilda observationerna, . xs

Sannolikheten för att en enskild observation )(Xx Φ=< eller lika med fördelnings-funktionen (den integrerade frekvensfunktionen) som finns tabellerad.

Om vi t.ex. vill veta inom vilket intervall de enskilda observationerna ligger med 95 % sannolikhet, ser vi från tabell att

96,1975,021 ==− XX α (5.2)

vilket betyder att det undersökta intervallet är

xx sxxsx ⋅+<<⋅− 96,196,1 (5.3)

Vill man utföra kalkyler för variabler som följer logaritmisk normalfördelning defini-eras X med hjälp av de logaritmerade storheterna. Samma tabell för )(XΦ användes.

5.2 Medelvärdets fördelning (t-fördelning) Om de enskilda observationerna är stokastiska, är en medelvärdet en stokastisk varia-bel med väntevärde x och standardavvikelse xs . Vi använder nu alltså medelvärdets standardavvikelse

n

ss x

x = (5.4)

32

Page 33: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

som snabbt minskar när antalet observationer ökar. Den normerade storheten för me-delvärdet t är definierat enligt

xs

xt µ−= (5.5)

Sannolikhetsfunktionen följer t-fördelningen som finns tabellerad för frihetsgraderna

1−= nν (5.6)

Om vi nu vill veta inom vilket intervall väntevärdet µ ligger med 95 % sannolikhet, eller väntevärdets 95 % konfidensintervall bör vi från tabell söka

[ ]να 975,021 tt =− (5.7)

T.ex. för 10 frihetsgrader är detta t-värde = 2,764. För ∞ frihetsgrader blir t-värdet = 1,96 eller samma värde som för normalfördelningen. α kallas signifikansnivå eller risknivå.

Ett 95 % konfidensintervall för medelvärdet vid 10 frihetsgrader, eller det intervall inom vilket 95 medelvärden skulle ligga om man gjorde 100 nya mätserier med 11 mätningar i varje är följaktligen

xx sxsx ⋅+<<⋅− 764,2764,2 µ (5.8)

Hypotesen 0µµ > (enkelsidig)

Vi beräknar: x

BER sx

t 0µ−= och 1−= nν

Från tabell: [ ]να−= 1ttTAB

Hypotesen accepteras om TABBER tt >

Hypotesen 0µµ < (enkelsidig)

Vi beräknar: x

BER sx

t−

= 0µ och 1−= nν

Från tabell: [ ]να−= 1ttTAB

Hypotesen accepteras om TABBER tt >

Hypotesen 0µµ ≠ (dubbelsidig)

Vi beräknar: x

BER sx

t−

= 0µ och 1−= nν

Från tabell: [ ]να 21−= ttTAB

Hypotesen accepteras om TABBER tt >

33

Page 34: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Hypoteserna BABABA µµµµµµ <>≠ ,, har tekniskt stor betydelse och skall lösas på olika sätt beroende på situationen. Om proven härstammar från samma population och provens ordningsföljd inte inverkar har man en situation som är analog med en envägs variansanalys, se kapitel 12. I själva verket får man med den metod som nedan skall beskrivas samma resultat som om man räknade enligt en envägs variansanalys.

Det kan t.ex. vara en sats av ett ämne och man vill analysera koncentrationen av nå-gon komponent med två olika metoder, t.ex. titrimetriskt och fotometriskt. Man har konstaterat att man får olika resultat med de två metoderna, och vill testa om skillna-den i resultat är statistiskt signifikant eller inte. Man st. prov som man analyserar med den ena metoden och st. prov som man analyserar med den andra metoden. Alla prov tas från samma sats och de skall alltså ”i verkligheten” alla ha exakt samma koncentration av komponenten i fråga, man testa endast analysmetoden.

AnBn

Man beräknar de aritmetiska medelvärdena Ax respektive Bx , samt standardavvikel-serna respektive . As Bs

Hypotesen är BA µµ ≠ eller man hävdar att metoderna ger olika resultat.

Därefter beräknas en medelstandardavvikelse enligt Ds

BA

BBAAD

sss

νννν

++

=22

där 1−= AA nν och 1−= BB nν .

Det beräknade t-värdet kalkyleras med

BAD

BABER nns

xxt

11 +

−=

Hypotesen accepteras om

[ ]να 21−> ttBER

där 2−+= BA nnν .

Parvisa diffenser

Föregående test kan inte användas om varje prov kan ha en annan sammansättning vilket uppträder när man tar prov t.ex. från ett processflöde för då ”drunknar” mätme-todernas varians i processens variationer. Det gäller då att analysera samma prov (ev. delat i två delar) med de båda metoderna varvid man för det första provet erhåller

och . Därefter tar man ett nytt prov, som alltså kan ha ny sammansättning och erhåller och o.s.v.

1Ax 1Bx2Ax 2Bx

För varje par bildas skillnaden BiAii xx −=∆ , där ni ...,,3,2,1= .

34

Page 35: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Sedan kan man beräkna den nya differensvariabelns aritmetiska medelvärde, ∆ och standardavvikelse på helt normalt sätt. ∆s

Om 0>∆ uppställs hypotesen BA µµ > eller 0>∆µ .

Om 0<∆ uppställs hypotesen BA µµ < eller 0<∆µ .

Dessa hypoteser testas med enkelsidiga t-tester enligt

nstBER

−∆=

0

och hypotesen accepteras om [ ]να−> 1ttBER där 1−= nν .

5.3 Variansens fördelning -fördelning, F-fördelning 2χ

Om variansen (och standardavvikelsen) skattats från experiment, är även variansen (och standardavvikelsen) en stokastisk variabel med eget väntevärde och standardav-vikelse. Variansen följer en s.k. -fördelning (chi-square) och denna storhet definie-ras

2

22 )1(

σχ

−⋅=

nsx (5.9)

De vanligaste hypoteserna är:

Hypotesen 20

2 σσ >

Vi beräknar: 20

22 )1(

σχ

−=

nsxBER och 1−= nν

Från tabell: [ ]νχχ 21

2aTAB −=

Hypotesen accepteras om 22TABBER χχ >

Hypotesen 20

2 σσ <

Vi beräknar: 20

22 )1(

σχ

−=

nsxBER och 1−= nν

Från tabell: [ ]νχχ 22aTAB =

Hypotesen accepteras om 22TABBER χχ <

Kvoten mellan två varianser följer F-fördelning (Fischer) och denna mycket viktiga fördelning användes vanligen för test av följande hypotes:

Hypotesen 22BA σσ >

Vi beräknar: 2

2

B

ABER s

sF = och 1−= AA nν samt 1−= BB nν

Från tabell: [ ]BATAB FF ννα ,1−=

35

Page 36: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

där och är antalet observationer i mätserie A respektive B. Hypotesen accepte-ras sedan om .

An BnTABBER FF >

Hypotesen 22BA σσ ≠

Vi beräknar: 2

2

B

ABER s

sF = och 1−= AA nν , 1−= BB nν där är den större variansen. 2As

Från tabell [ ]BATAB FF ννα ,21−= .

Hypotesen accepteras om . TABBER FF >

6

6.1 Målsättning

6.2

Allmän försöksplaneringsteori

Då man undersöker industriella processer, har man i regel ett stort antal variabler, som kan väntas ha betydelse. Detta är fallet oberoende av om man arbetar i laboratorieska-la, halvstor skala eller i fabriksskala. Att undersöka alla dessa variablers inverkan i processen är mycket tidsödande och i fråga om den mindre betydelsefulla variablerna även onödigt. I ett tidigt skede av undersökningen har man sålunda behov av metoder, med vilka de variabler, som har den största betydelsen kan tas fram, så att undersök-ningen i främsta rummet kan inriktas på dem.

Den klassiska metoden Den klassiska metoden att undersöka en variabel i taget, medan de andra hålls på kon-stanta nivåer, är i fråga om att snabbt få information om processen en ineffektiv och även primitiv metod. Även om man nöjer sig med att endast söka linjära trender och sålunda mäter inverkan av en variabel då dess värden hålls på endast två nivåer, bör mätningen på vardera nivån upprepas åtminstone en gång för att man skall kunna be-döma mätvärdenas stokastiska spridning. Vill man med denna metod undersöka huru-dan inverkan tre variabler x, u och v har på en beroende variabel y i processen, kan man först hålla u och v konstanta – t.ex. på värdena och – samt göra dubblerade försök på värdenivåerna och .

1u 1v1x 2x

Man mäter alltså

1. ),,( 111 vuxy

2. ),,( 111 vuxy

3. ),,( 112 vuxy

4. ),,( 112 vuxy

Ur resultaten av de dubblerade försöken kan man skatta väntevärden ),,( 111 vuxy och ),,( 112 vuxy samt beräkna standardavvikelsen för mätresultaten, varvid antalet fri-

hetsgrader dock är endast 1. Inverkan av variabeln x på y beräknas nu

),,(),,( 111112 vuxyvuxy −

36

Page 37: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Vill man nu undersöka variabeln u:s inflytande på y bör man göra försöken

5. ),,( 121 vuxy

6. ),,( 121 vuxy

med efterföljande beräkning av ),,( 121 vuxy och ),,( 111 vuxy . Efter ytterligare försö-ken

7. ),,( 211 vuxy

8. ),,( 211 vuxy

kan ),,( 211 vuxy beräknas och jämföras med ),,( 111 vuxy . Hittills har man alltså gjort åtta försök och man kan dra slutsatser om trender hos y vid förändringar av var och en av variablerna x, u och v, då de övriga hålls på den ena värdenivån. Vill man på detta sätt undersöka om dessa trender förändras, då de övriga variablerna hålls på den andra nivån, måste ytterligare åtta försök utföras, vilket ger sammanlagt 16 försök.

6.3 En alternativ analys Samma information fås emellertid med endast åtta experiment, om resultaten analyse-ras på ett annat sätt. Man utför försöken

),,(),,(),,(),,(),,(),,(),,(),,(

222212122112

221211121111

vuxyvuxyvuxyvuxyvuxyvuxyvuxyvuxy

och bildar medeltalet )( 1xy av de fyra försöksresultaten, då 1xx = och räknar på motsvarande sätt ut )( 2xy ur de återstående fyra försöksresultaten. Den trend som variabeln x ger åt y beräknas nu

)()( 12 xyxy −

På motsvarande sätt beräknas inverkan av u och v på y. Observera att vid beräkningen av medeltalen kunde man utgår från fyra enskilda mätvärden istället för två, såsom fallet enligt det ”klassiska” sättet. Detta ger är säkrare skattning.

Förekomsten av en gemensam inverkan av variablerna x och u på y kan också under-sökas. Beräknar man

[ ]),,(),,(21),,( 21111111 vuxyvuxyvuxy +=

kan på motsvarande sätt ),,( 21 vuxy , ),,( 12 vuxy samt ),,( 22 vuxy kan en dylik gemensam inverkan av x och u på y konstateras om

[ ]),,(),,(),,(),,( 12212211 vuxyvuxyvuxyvuxy +−+

37

Page 38: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

väsentligt avviker från noll. Detta innebär att y:s beroende av x också är beroende av värdet på u. På motsvarande sätt finner man eventuell gemensam inverkan av de två andra kombinationerna av variabler. T.o.m. en gemensam inverkan av alla tre variab-ler kan beräknas.

Ifall man vet att vissa trender eller gemensamma inverkningar inte förekommer, har man information (=frihetsgrader) att bestämma de övriga trendernas sannolikhet. Denna information fås naturligtvis också om man dubblerar försöken, varvid man kommer upp till 16 försök alltså samma antal som behövdes i det klassiska sättet att utreda de olika beroendena. Med det nu redovisade sättet att analysera försöksresulta-ten löper man emellertid mindre risk att en slumpmässig stor avvikelse i något mät-värde skall förrycka resultatet. Man får kvantitativ upplysning om gemensam inverkan av oberoende variablerna och har möjlighet att testa resultatens tillförlitlighet med va-riansanalys.

Detta förfarande vid analys av försöksdata kan utvidgas att omfatta flera än tre obero-ende variabler. Man inser dock att antalet försök växer mycket snabbt med antalet va-riabler. Om man t.ex. har sju variabler och dubblerar alla försök fås för-sök. Dylika försöksuppläggningar, vars resultat kan behandlas med variansanalys, kal-las faktorförsöksplaner. I sin fullständiga form har de endast begränsad användning, emedan de kräver för många försök.

25622 7 =⋅

Dessa försöksplaner kallas allmänt försöksplaner. Om man även skall kartlägga krökta samband, måste en mellannivå på variablerna införas. Sådana planer kallas Box-planer efter upphovsmannen G.E.P. Box. I denna kurs behandlar vi inte Box-planer, inte för att det skulle vara något fel på dem, utan för att vi tror att det finns mera ingenjörsmässiga lösningar.

k2

6.4 Faktorförsöksplaner, försöksplaner enligt Plack-ett&Burman

Statistiker har även kunnat konstruera försöksplaner, som är delar av faktorförsöks-planer, varvid antalet försök kraftigt kan reduceras, utan att man går miste om annan information än om vissa variablers gemensamma inverkan på den beroende variabeln. R.L. Plackett och J.P. Burman har utarbetat sådana fraktionerade faktorförsöksplaner, som synes attraktiva för dem som med ett minimum av försök samtidigt önskar utreda betydelsen av ett stort antal variabler.

Med dessa försöksplaner kan upp till 1−n variablers inverkan undersökas med n för-sök. Planer för 8, 12, 16, 20, 24, 28 och 32 experiment finns angivna. Dessa planer – såsom för övrigt alla faktorförsöksplaner – förutsätter att de olika variablerna kan hål-las på olika nivåer oberoende av på vilka nivåer de övriga variablerna är. Detta är en allvarlig begränsning för försöksplanernas användning vid försök i fabriksskala. Där-emot kan detta krav ofta uppfyllas vid arbete i laboratorier.

38

Page 39: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Om de olika värdenivåer – t.ex. en temperatur på nivåerna 20 ºC och 40 ºC – på vilka variablerna skall inställas, betecknas med A och B, är försöksplanen för undersökning av upp till sju variabler med åtta experiment följande. Man kan också ersätta A med tecknet (hög nivå) och B med tecknet

71 xx K

+ − (låg nivå).

BBBBBBBBABAAABABAAABBBAAABBAAAABBABAABBABAABBABAABBABAAAxxxxxxx

87654321

7654321

Man ser att följande rad fås genom att flytta tecken ett steg åt vänster och att sätta det tecken som hamnar utanför schemat på den tomma platsen till höger. Schemat utfylls på detta sätt tills det har lika många rader som kolumner, varefter en rad med endast B skrivs längst med.

På samma sätt fås de övriga försöksplanerna utgående från en första rad med

BBAAABAAABBBAAAAABBAAABABABBBBBBBBABABAABBAABBABABAAAA

AABBBBBBABAAAAAAABBBBBABBABABAAAAA

BABAABBAABA

n

3224201612

=

Ifall antalet variabler som skall undersökas inte är lika med 1−n väljs en försöksplan, i vilken alla variabler ryms och överskottsplatserna betraktas som skenbara variabler (dummies), som inte föranleder någon förändring i processen vid experimentens ge-nomförande. Med dylika skenbara variabler ökas antalet försök i förhållande till anta-let variabler och man får extra information, som gör testning av resultatens sannolik-het möjlig.

6.5 Några kommentarer Innan användning av försöksplanerna och analysen av försöksresultaten skall demon-streras med ett exempel, är det skäl att påpeka följande omständigheter.

Ur resultat, som erhållits ur experiment gjorda enligt Plackett-Burman försöksplaner, kan inte gemensam inverkan av flera variabler särskiljas från enskilda variablers in-verkan. Ifall dylik gemensam inverkan är betydande, kan någon enskild variabel fel-aktigt bli signifikant.

39

Page 40: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Med försöksserier som utförs enligt dessa planer kan inte krökta samband hittas. En preliminär matematisk modell, som kan uppställas på basen av resultatanalysen, kan därför ge rätt felaktiga värden åt den beroende variabeln, om sambandet mellan dessa variabler är starkt olinjärt. Detta kan i vissa fall också leda till att ifrågavarande obe-roende variabel felaktigt blir insignifikant.

I kombination med sunt förnuft och allmän processkännedom hos den som bedömer analysens resultat måste dock dessa försöksplaner anses synnerligen effektiva vid kartläggning av vilka variabler som är betydelsefulla och i vilken riktning dessa vari-abler påverkar den valda beroende variabeln. Om man har flera beroende variabler kan effekten på dessa analyseras ur resultat ur samma försöksserie.

En uppenbar fördel är även att försöksplanen mycket snabbt kan ställas upp sedan de olika variablerna och deras nivåer slagits fast. Arbetet kan sedan utföras av en person, som sålunda får entydiga instruktioner och vilka försök som skall göras. Resultaten kan inte heller bedömas förrän hela försöksserien är slutförs, vilket hindrar att felakti-ga slutsatser dras förhastat ur enstaka försök.

6.6 Bearbetning av försöksresultat (exempel) Försöksplan och försöksresultat

Uppställs en Plackett-Burman försöksplan för undersökning av inverkan av

Ac koncentration i intervallet 2,35 – 2,46 g/l

bt behandlingstid – ” – 1 – 15 s

vt väntetid – ” – 1 – 4 min

rt reaktionstid – ” – 6 – 24 min

rΘ reaktionstemperatur – ” – 30 – 40 ºC

och känsligheten för systematiska avvikelser i resultat erhållna av två olika laboranter A och B.

Vi skall bedöma en kvalitetsegenskap Y vid framställning av en produkt enligt ett nytt förfarande.

Vi väljer en försöksplan för 12 experiment för att få tillräckligt med frihetsgrader (dummies), genererar den enligt ovan beskrivet recept och erhåller

40

Page 41: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Ac bt vt rt rΘ Y

2,46 15 1 24 + 40 – – – + B 1647

2,46 1 4 24 + 30 – – + – A 1393

2,35 15 4 24 – 30 – + – + A 1124

2,46 15 4 6 – 30 + – + + B 434

2,46 15 1 6 – 40 – + + – A 546

2,46 1 1 6 + 30 + + – + A 305

2,35 1 1 24 – 40 + – + + A 1055

2,35 1 4 6 + 40 – + + + B 503

2,35 15 1 24 + 30 + + + – B 1080

2,46 1 4 24 – 40 + + – – B 1767

2,35 15 4 6 + 40 + – – – A 526

2,35 1 1 6 – 30 – – – – B 218

Vi har nu valt , , , och till dummies men vi kunde ha valt vilka variab-ler som helst till dummies eftersom alla kolumner är likvärdiga.

5x 7x 9x 10x8x

Som sista kolumn (Y) har vi antecknat de kvalitetsvärden som erhöll efter genomfö-rande av experimentserien.

Resultatbearbetning

Beräkna medelvärdet av resultatet i samtliga försök

( ) 17,883218536...13931647121

=++++=y

Vidare beräknas

−+ −= 111 YYC

där +1Y är medelvärdet av resultaten vid de försök, då variabeln 1, d.v.s. , har hål-

lits på värdenivån A, alltså försöken 1, 2, 4, 5, 6 och 10 Ac

( ) 33,101517673055464341393164761

1 =+++++=+Y

och −1Y betecknar medelvärdet av resultaten vid de övriga försöken, då variabeln 1

hållits på värdenivån B. Man kan emellertid utnyttja samtliga försöksresultats medel-värde, då man lätt kan visa att

41

Page 42: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

( )YYC −= +11 2

( ) 33,26417,88333,101521 =−=C

På samma sätt beräknas , , , , ... , , och antecknas i en tabell. 2C 3C 4C 5C 10C 11C

I försöksplanen är variablerna 5, 7, 8, 9, 10 sådana, som inte föranlett någon föränd-ring i försöksbetingelserna. Någon skillnad om dessa variabler hålls på nivån A eller B borde inte kunna utläsas ur försöksresultaten. Trots detta uppvisar de för dessa variab-ler beräknade värden , o.s.v. från 0 avvikande värden. Detta beror på det sto-kastiska felet i försöksresultaten (eller på samvariation hos reella försöksvariabler) och dessa för ”dummies” beräknade C-värden kan användas för skattning av restvari-ansen i försöksvärdena, vilken inte förklaras av förändringar i reella försöksvariabler

5C 7C

( )

( ) 8,396501,77...01,4466,515151

222

210

29

28

27

25

2

=+++=

++++= CCCCCsREST

Härur fås

97,622 == RESTREST ss

Detta värde kan användas för ett t-test av hypotesen 0≠iC med o.s.v. varvid hypotesen accepteras om

,3,2,1=i

[ ]να 21

0−>=

−tt

sC

iREST

i

gäller, varvid sannolikheten för att påståendet är felaktigt är mindre än α . I detta fall har de olika -värdena beräknats it

20,497,6233,264

1 ==t o.s.v.

Resultatet ges i följande tabell, där även de beräknade och är antecknade iC it

42

Page 43: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

— iC it

Koncentration 1 264,33 4,20 signifikant

Behandlingstid 2 19,33 0,31

Väntetid 3 149,33 2,37 tvivelaktig/insignifikant

Reaktionstid 4 922,32 14,64 signifikant

— 5 51,66 —

Reaktionstemperatur 6 248,33 3,94 signifikant

— 7 -44,01 —

— 8 8,66 —

— 9 -96,01 —

— 10 -77,01 —

A eller B 11 -116,67 1,85 tvivelaktig/insignifikant

De betecknade -värdena jämförs med det kritiska t-värdet it [ ] 571,25975,0 =t

Slutsatser

Det synes sannolikt att kvalitetsvariabeln Y påverkas av

- koncentrationen

- reaktionstiden

- reaktionstemperaturen

medan den sannolikt mindre påverkas av

- väntetiden

- systematisk avvikelse mellan laboranter

och inte påverkas av

- behandlingstiden

Trender

Man kan genast utesluta de tvivelaktiga variablerna om man vill. Men för exemplets skull tas de här med i modellen eftersom det statistiska materialet är så begränsat att vi inte kan vara helt säkra på att de inverkar. För de signifikanta och tvivelaktiga variab-lerna beräknas trenden enligt formeln 1b

43

Page 44: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

−+ −=

ii

ii xx

Cb

varvid fås

dA5,0dB5,0

om7,116

C8,24

min2,51

min8,49

mg/l40,2

g/l11,033,264

11

6

4

3

1

+−

=−=

=

=

=

==

11xb

b

b

b

b

o

Preliminär matematisk modell

En preliminär matematisk modell av formen

( )∑ −+= iii xxbYY

ger följande uttryck för kvalitetsvariabelns beroende av de signifikanta och tvivelakti-ga oberoende variablerna

117,11635C

8,2415min

2,51

5,2min

8,492405mg/l

40,2833

xt

tcY

rr

vA

⋅−⎟⎠⎞

⎜⎝⎛ −Θ

+⎟⎠⎞

⎜⎝⎛ −+

⎟⎠⎞

⎜⎝⎛ −+⎟⎟

⎞⎜⎜⎝

⎛−+=

o

Eventuellt kan de tvivelaktiga variablerna bortlämnas, men vi ser från modellen att deras inverkan på Y är ganska liten så de kan tas med bara man är medveten om att de eventuellt är insignifikanta. I följande tabell kan de med modellen beräknade resulta-ten jämföras med de experimentellt erhållna resultaten.

44

Page 45: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

1647 1583

1393 1369

1124 1105

434 563

546 545

305 297

1055 1201

503 547

1080 1071

1767 1733

526 431

218 149

Litteratur:

Box, G. E. P., Hunter, W. G., Statistics for Experimenters. Wiley, New York, 1978.

Stowe, A. R., Mayer, R. P., Efficient Screening of Process Variables, Industrial and Engineering Chemistry, Vol. 58, no. 2, 1966.

Plackett, R. L., Burman, J. P., Experimental Design, Biometrika, No. 33, 1946.

6.7 Taguchi-metoden

6.7.1 Allmänt Den japanska professorn Taguchi har blivit världsberömd genom sitt sätt att tillämpa välkända faktorförsöksplaner (Box, Plackett&Burman) på industriell kvalitetskontroll, d.v.s. SPC = statistical process control och SCC = statistical quality control.

Taguchi strävar till att göra processerna robusta eller stabila mot störningar och att finna de additiva parametrar (signifikanta oberoende variabler) med vilka processer-na kan optimeras. Genom att på rätt sätt styra de parametrar som påverkar processen strävas till att minimera variationerna i produktens kvalitet och att minimera produk-tionskostnaderna.

Taguchi-metoden är inte endast numerisk analys av experimentella data, utan även en kvalitetsfilosofi som definierar kvalitet med att kunden är nöjd och att det egna företa-get är framgångsrikt. Kvalitet är därför ett mera vidsträckt begrepp än ett rent tekniskt begrepp. Grundtankarna är följande:

45

Page 46: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

1. Variationer i produktens kvalitet måste minimeras inom ramen för ett ekono-miskt produktionssätt.

2. Man indelar processvariabler i styrvariabler och störvariabler. Närmast mot-svaras dessa variabler av inställbara oberoende variabler respektive icke-inställbara oberoende variabler. I en experimentsituation kan man givetvis va-riera på en störvariabel, men under produktionsförloppet är den en sådan som man gärna skulle hålla konstant vilket inte lyckas.

3. Minsta kvalitetsvariation fås med den kombination av styrvariabler och störva-riabler där störvariabelns inverkan är så liten som möjlig.

Man kan kanske säga att Taguchi-metoden mera är strategi medan den försöksplane-ring som denna kurs omfattar är metodologi.

6.7.2 Svinnfunktionen Om någon viktig kvalitetsbeskrivande storhet är utanför tolerans- eller specifikations-gränserna åstadkommer den ett svinn. Enligt Taguchi kan man räkna med svinn även inom toleransgränserna om man inte träffar börvärdet. Svinnet är ett vidsträckt be-grepp som även omfattar de problem mätt i penningenheter som kunder åsamkas av en produkt vars kvalitet är långt från börvärdet.

Taguchi definierar

1. Kvalitetens svinnfunktion L (QLF = quality loss function)

2. Signal/brusförhållandet S/N (i decibel)

Låt y vara en kvalitetsvariabel (t.ex. tryckhållfastheten för cement) och m är det bör-värde man strävar till. Taguchi föreslår att svinnfunktionen definieras

( )2)( mykyL −⋅=

vilket betyder att avvikelser från börvärdet viktas lika oberoende om de är över eller under detsamma. Man kan givetvis välja andra modeller för svinnfunktionen. Insätter man medelvärdet för y och standardavvikelsen fås medelvärdet för svinnfunktionen enligt

( )( )22)( mykyL avav −+⋅= σ

varvid både hög standardavvikelse och hög avvikelse från börvärdet inverkar höjande på svinnfunktionen.

46

Page 47: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Rent produktionsfilosofiskt är definitionen av svinnfunktionen enligt ovanstående in-tressant och ganska typisk för japansk produktionsfilosofi. Genom att man inte tolere-rar hög standardavvikelse på kvaliteten (japanska bilar har mycket jämn kvalitet och ”måndagsexemplar” är sällsynta) kan man hålla börvärdet relativt lågt, det skall var-ken finns produkter med högre kvalitet än börvärdet eller sådana med lägre kvalitet och medeltalet skall ligga nära börvärdet. Plåten kan hållas tunn då den inte varierar, och målningsskiktet likaså eftersom korrosion uppstår vid tunna avvikelser vilka alltså inte finns.

Eftersom samma kriterier gäller för alla komponenter betyder det att en japansk bil fungerar mycket bra en relativt lång tid (de vinner många s.k. 30 000 km tester), men då det är slut så är det oftast så att alla delar av bilen tar slut ungefär samtidigt.

Även om man definierat en toleransgräns

maxmin ymy <<

får man alltså svinn även inom toleransgränsen.

6.7.3 Minimering av svinnfunktionen Har man många styrvariabler kan en viss produktkvalitet (y närmar sig m) åstadkom-mas med flera alternativa kombinationer av dessa. Man väljer då i regel den kombina-tion som ger de lägsta produktionskostnaderna.

Men sysslar man även med kvalitetsstyrning (SCC) finns det tilläggskriterier: Den kombination som ger börvärdet med lägsta produktionskostnader är inte nödvändigt-vis den optimala kombinationen om man även sätter ett pris på standardavvikelsen. Det krävs även att kombinationen är robust och om den inte är det, kan det finnas en annan kombination som totalekonomiskt är bättre för att den är mera robust. Kombi-nationen skall då vara okänslig för variationer i störvariablerna!

6.7.4 Försöksplanering av styr- och störvariabler Även om störvariablerna inte under drift av processen kan hållas helt konstanta, måste man, om man vill modellera processen enligt Taguchi, kunna skapa en experimentell situation där även störvariablerna kan inställas på fastslagna nivåer. Kan man inte det, är Taguchi-metoden oanvändbar och det är den tyvärr ganska ofta. Man får i så fall ty sig till ”normal” försöksplanering och modellbygge där man koncentrerar sig på att inställa de inställbara variablerna och endast registrera de icke-inställbara variablerna.

Vi låter t.ex. variablerna A – D vara styrvariabler (temperatur, utgångskoncentratio-ner, reaktionstid etc.) och E – G vara störvariabler (utifrån kommande råvarans fukt-halt, utetemperaturen, andelen kanalströmning i cellulosakokaren etc.) vilka vi i en experimentsituation inte kan kontrollera. Vi gör en Plackett&Burman uppställning av styrvariablerna och för varje kombination en motsvarande för störvariablerna. Det blir då ganska många experiment så man skall ha goda motiv (dyr produkt, stora kostna-der för ojämn produkt) för att genomföra planen.

47

Page 48: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Uppställning får då i princip följande utseende om vi utnyttjar en Plackett&Burman för 8 experiment.

G + – + – – + + –

F + + – + – – + –

E + + + – + – – –

Exp. nr. A B C D

1 – 8 + + + – 11y 12y 13y 14y 15y 16y 17y 18y

8 – 16 + + – + 21y 22y 23y 24y 25y 26y 27y 28y

16 – 24 + – + – 31y 32y 33y 34y 35y 36y 37y 38y

24 – 32 – + – – 41y 42y 43y 44y 45y 46y 47y 48y

32 – 40 + – – + 51y 52y 53y 54y 55y 56y 57y 58y

40 – 48 – – + + 61y 62y 63y 64y 65y 66y 67y 68y

48 – 56 – + + + 71y 72y 73y 74y 75y 76y 77y 78y

56 – 64 – – – – 81y 82y 83y 84y 85y 86y 87y 88y

Nu har vi alltså i stället för en kolumn med y-värden som i normal Plackett&Burman en hel y-matris som kan användas för diverse matematiska utvärderingar. Om man mäter flera kvalitetsvariabler får man motsvarande matriser även för dessa.

6.7.5 Signal/brusförhållandet Vi beräknar nu för varje rad radmedelvärdet och standardavvikelsen för varje rad, .

rowavy ,

rows

Vi kan därefter utvärdera inverkan av styrvariablerna på kvalitetsvariabel på vanligt sätt enligt Plackett&Burman.

För varje rad beräknas signal/brusförhållandet som 10 gånger logaritmen av kvadraten på förhållandet mellan radmedelvärdet och radstandardavvikelsen.

dBs

yN

S

row

rowav

row

2,log10 ⎟⎟

⎞⎜⎜⎝

⎛⋅=

Nu kan man ju undersöka inverkan av varje styrvariabel på detta förhållande på sam-ma sätt som inverkan på radmedelvärdet. Då får man fram vilken styrvariabel som totalt sett åstadkommer det minsta signal/brusförhållandet eller den största känslighe-ten för störningar, och i vilken riktning inverkan sker.

Om någon styrvariabel får en negativ koefficient betyder det att störningskänsligheten försämras när denna variabel går från – nivå till + nivå.

48

Page 49: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

För kolumnerna skulle det vara nonsens att räkna ut signa/brusförhållandet (kan ni fundera ut varför?). Däremot kan man beräkna inverkan av störvariablerna på de mo-mentana y-värdena radvis och se vilken störvariabel som åstadkommit de största avvi-kelserna, och vid vilken kombination av styrvariabler som detta har skett.

Vill man riktigt ta ut allt kan man därefter kolla de enskilda styrvariablernas inverkan på känsligheten för enskilda störvariabler.

Numeriskt exempel

En vass pryl kopplad till en numeriskt styrd verkstadsmaskin skall slå ett litet hål i en plåt. Eftersom maskinen ofta missade det inställda avståndet något och placeringen av hålet därigenom blev lite östeuropeiskt ville man ta reda på vad som inverkade på av-vikelserna från det inställda avståndet. Man planerade därför en kort experimentserie där variablernas variationsintervaller överdrevs ordentligt för att man skulle få fram tydliga differenser. I verkligheten missade prylen högst med 0,15 mm, men för expe-rimentets skull ställde man in variablerna för att få avvikelser på flera millimeter från ett inställt avstånd på 40 mm från referenspunkten.

Styrvariablerna var:

A Prylens horisontella avstånd 1 = mycket lågt, 2 = mycket högt

B Fabrikat (leverantör) av prylen 1 = firma I, 2 = firma II

C Inställd maskinhastighet 1 = långsamt, 2 = maxhastighet

Störvariablerna var:

H Plåtens Brinell-hårdhet 1 = mycket mjuk, 2 = mycket hård

I Plåtens tjocklek 1 = mycket tunn, 2 = mycket tjock

J Ström skärolja 1 = låg, 2 = hög

Att dessa är störvariabler beror på att plåtens tjocklek normalt varierar en del, att det finns lokala hårdhetsvariationer och att det är svårt att hålla strömmen skärolja kon-stant.

Efter faktorförsöksplanering och utförda experiment erhölls följande tabell

49

Page 50: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

I 1 2 2 1

J 1 2 1 2

H 1 1 2 2

A B C med. s S/N

1 1 1 37 38 36 37 37 0,82 33,1

1 2 2 35 39 40 39 38,25 3,30 20,9

2 1 2 45 44 44 46 44,75 0,96 33,4

2 2 1 41 52 46 42 42,25 4,99 19,2

Sedan är det bara att börja utvärdera tabellen, inverkan av

på y 8,125 högt startavstånd ger hål för långt borta A

på S/N -0,7 låg inverkan

på y 0,125 låg inverkan B

på S/N -13,2 pryl från firma II tycks ge stor spridning

på y -0,375 låg inverkan av maskinhastighet C

på S/N 1,00 låg inverkan

Om variabeln A (starthöjden) påverkar y måste den hållas konstant och låg för en bra noggrannhet, medan vi borde välja pryl från firma I för ett högt signal/brusförhållande eller en bra precision.

Därefter kollas inverkan av störvariablerna H, I och J radvis för att dels se vilken av störvariablerna som är den mest kritiska, och vilken kombination styrvariabel – stör-variabel som man måste passa upp med. Vi erhåller då följande tabell

inverkan av H I J

på rad 1 -1,00 1,00 0,00

2 2,50 1,50 2,50

3 0,50 0,50 -1,50

4 -2,50 3,50 7,50 (hoppsan!)

50

Page 51: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Enligt ovanstående ser det ut som om samtliga störvariabler skulle störa mest då man använt pryl av fabrikat II och detta gäller speciellt oljeflödet i kombination med fabri-kat II, högt startavstånd och långsam hastighet.

Man kan kanske tänka sig att denna pryl har en sämre spets och halkar i oljan men det statistiska materialet är alltför litet för sådana långt gående slutsatser. I alla fall lönar det sig att välja fabrikat I. Man kan programmera hela proceduren i Excel, Matlab el-ler vad man vill men före man gör det kan det löna sig att kolla att man verkligen vet vad man egentligen håller på med.

6.7.6 Diskussion Istället för signal/brusförhållandet kan man för varje rad beräkna svinnfunktionen och analysera vilka styrvariabler som påverkar denna. Man får då som resultat att det är variabel A (starthöjden) och variabel B (firma I eller II) som båda påverkar svinnfunk-tionen.

Om man kör en regressionsanalys på hela materialet på normalt sätt och uppfattar både styr- och störvariabler som likvärdiga processvariabler och använder de uppmät-ta y-värdena som beroende variabel så får man variabel A som enda signifikanta vari-abel. Vad beror detta på? Jo, regressionsanalysen analyserar endast vilka variabler som påverkar det erhållna värdet på y och det är endast variabel A som gör det. Varia-bel B påverkar ju standardavvikelsen och detta kan den normala regressionsanalysen inte se.

Sätter man in signal/brusförhållandet eller svinnfunktionen som beroende variabel blir även variabel B signifikant i regressionsanalysen (naturligtvis) men då har man ju för-stört inverkan av J, I och H när man beräknat den beroende variabeln.

Taguchis metod att definiera resultatfunktionen och sättet att uppställa försöksplanen är därför användbar vid kvalitetskontrollproblem. Vid normal processmodellering där man inte klart kan separera störvariabler från styrvariabler och där inställande på för-hand av störvariabler är svårt, kan inte Taguchis metod användas. Man får då använda metoder som beskrivs i fortsättningen av detta kompendium.

Litteratur:

Taguchi, G., Hsiang, T., Quality Engineering in Production Systems, 172 s., McGraw-Hill Book Company, 1989.

Karjalainen, E., Johdatus teolliseen koesuunnitteluun, Suomen tilastoseuran vuosikir-ja, s. 45–71, 1991.

51

Page 52: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

7 Matematiska modeller Det har tidigare konstaterats, att mätvärden uppmätta i någon process antar olika vär-den, dels till följd av ett beroende mellan uppmätta storheter som inte alla hålles på konstanta värden, dels på grund av slumpmässiga tillfälligheter i processen eller mät-apparaturen. När man utgående från experimentella försöksserier skall beskriva verk-ligheten i matematisk form, d.v.s. uppställa en matematisk modell, är man i allmänhet inte intresserad av de stokastiska avvikelserna utan främst av det funktionella sam-bandet mellan de uppmätta storheterna.

En modell, som inte beskriver de stokastiska variationerna, kallas en deterministisk modell i motsats till en stokastisk modell, som inkluderar också slumpvisa variationer. Om man i en deterministisk modell har obekanta konstanter (reaktionshastigheter etc.) som måste beräknas med hjälp av experiment, får även den deterministiska modellen stokastiska egenskaper.

Man kan tala om stokastisk modell med deterministisk modellstruktur.

Alla mätvärden är i princip stokastiska och då man strävar att uppställa en determinis-tisk modell för processen, bör man ur en försöksserie med dess slumpvisa variationer kunna utvinna de systematiska variationerna i försöksserien. Man önskar dessutom ofta uppnå ett tillräckligt noggrant resultat med så få experiment som möjligt.

Har man endast en oberoende variabel x och studerar hur den beroende variabeln y varierar med x, kan man framställa resultatet i diagramform.

Den heldragna linjen representerar här den med ögonmått approximerade systematis-ka variationen hos de utprickade mätpunkterna, och kan uppfattas som grafen av en matematisk funktion. En dylik grafisk metod är användbar, om man betraktar endast en oberoende variabel. Den slumpartade variationen är liten, och någon matematisk formulering av modellen är inte behövlig.

Har man många oberoende variabler är denna metod dock opraktisk, osäker, oöver-skådlig och kräver betydligt flera experiment än om den matematiska modellen sökes med hjälp av regressionsanalys. Använder man sig av regressionsanalys, måste man emellertid välja den matematiska formen på modellen, d.v.s. sambandet mellan den beroende variabeln y och de oberoende variablerna . Regressionsanalysen eliminerar blott insignifikanta termer ur ursprungsmodellen och bestämmer värden på i modellen ingående koefficienter. Detta samband kan helt allmänt skrivas

...,, 21 xx

,...),,(ˆ 321 xxxfy = (7.1)

Här betecknar ett ur formeln beräknat värde, som normalt skiljer sig något från motsvarande uppmätta värde . Funktionen f bör ha en sådan form att den väl kan formas till att ansluta sig till de uppmätta värdena och därigenom sammanfattar för-söksresultaten samtidigt som den utjämnar den stokastiska variationen.

y1y

52

Page 53: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Vid val av funktionstyp f skall man så långt som det är möjligt utnyttja den teoretiska kunskap man har om processen. Utgående från fundamentala naturlagar kan man ofta finna lämpliga matematiska samband för den process det är fråga om. De teoretiska ekvationerna innehåller då vanligen okända konstanter, för vilka man bör finna nume-riska värden ur empiriska data.

I många fall är de teoretiska ekvationerna dock alltför komplicerade för att vara prak-tiskt användbara. I andra fall är de undersökta processerna alltför invecklade för att teoretiska samband överhuvudtaget skall kunna uppställas. Man är då hänvisad till att uppställa en empirisk modell för processen.

Ifall man endast dåligt känner den undersökta processen och de oberoende variabler-nas variationsintervall är tämligen snäva, ligger det nära till hands att välja en enkel modell, t.ex. en modell som endast beaktar linjära samband mellan de oberoende vari-ablerna och den beroende variabeln.

...22110 +++= xbxbby (7.2)

Här betecknar o.s.v. de koefficienter, som skall numeriskt bestämmas medelst regressionsanalys. Ifall man befarar att något samband mellan en oberoende variabel och den beroende variabeln icke är linjärt, kan man ta med en term t.ex. , där

då är den ifrågavarande oberoende variabeln.

10 ,bb

2222 xb

2x

Denna typ av modell kan sägas utgöra avbrutna Taylor-serieutvecklingar av de verkli-ga funktionerna. Har man endast en oberoende variabel x och betecknas det exakta funktionssambandet , kan man omkring värdet )(xf ax = utveckla funktionen i en serie

...)(21)()()( 2

2

2

+−+−+== axdx

fdaxdxdfafxfy (7.3)

Exakt stämmer likheten endast om serien innehåller ett oändligt antal termer, men för att beskriva en inte alltför komplicerad funktion inom ett begränsat intervall är i all-mänhet ett fåtal termer tillräckligt. Genom matematisk omformning kan Taylor-serien skrivas i enklare form

(7.4) ...)( 2210 +++== xbxbbxfy

där koefficienterna b inkluderar de olika derivatorna och funktionsvärdet i punkten a.

Vid flera oberoende variabler blir Taylor-serierna snabbt mycket komplicerade. För två variabler får den omformade serien inkluderande tredjegradstermerna redan tio termer. Detta beror på att termer med korsprodukter av typen bör ingå i serien. Innebörden av dessa korsprodukter inses enkelt med följande modell

21 xx

( ) 22121210222112110 xaxxaaaxaxxaxaay +++=+++= (7.5)

53

Page 54: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Man ser att införandet av en korsprodukt ( ) innebär att koefficienten för en obe-roende variabel ( eller ) blir en funktion av en annan oberoende variabel ( el-ler ). Detta i sin tur innebär, att förutom nivån är även lutningen hos grafen av

beroende av värdet på . Ifall man misstänker att detta är fallet med något par av oberoende variabler i processen, kan man taga med en term med korsprodukten av dessa i modellen. Är den inte signifikant, elimineras den vid regressionsanalysen.

21 xx1x 2x 2x

1x)( 1xy 2x

Kännetecknande för dessa modeller är att de är linjära i avseende på koefficienterna b. Endast dylika modeller kan användas vid linjär regressionsanalys. Dessa modeller kan dock anses utgöra specialfall av en mera allmän linjär modell, t.ex.

...),(),(),,( 2122111021 +++= xxfbxyfbbxxyf (7.6)

där alla funktioner inkluderar endast x och y samt numeriskt kända konstanter med inga obestämda koefficienter.

Ett exempel på den mera allmänna linjära modellen (7.6) är

2211

22110

1 xbxbxaxaa

y++++

= (7.7)

som kan överföras i den linjära modellen

221122110 xybxybxaxaay −−++= (7.8)

Vissa ickelinjära modeller kan överföras i linjära modeller genom enkel omformning. Ett exempel är den relativt vanliga multiplikativa modellen

(7.9) 3213210xcc cxxcy ⋅⋅⋅=

som genom logaritmering ger den i avseende på koefficienterna linjära modellen

3322110 logloglogloglog xcxcxccy ⋅+++= (7.10)

Här betraktas och som nya koefficienter. 0logc 3log c

Man bör vid dylika omformningar observera att anpassningen av en funktion till ett modifierat värde – t.ex. – är en helt annan regressionsanalys än anpassningen till y. I allmänhet erhålles för koefficienterna olika värden utgående från de olika an-passningarna även om omräkningar från den ena formen till den andra är möjlig.

ylog

I många fall kan olika matematiska modeller med ungefär lika gott resultat anpassas till experimentella försöksresultat. Man skall sålunda vara mycket försiktig att dra slutsatser ur den matematiska formen hos modellen, den kan t.ex. inte extrapoleras utanför det intervall, inom vilket mätvärdena ligger.

54

Page 55: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

8

8.1

Multipel lineär regressionsanalys

Beroende och oberoende variabler Med hjälp av multipel lineär regressionsanalys kan man beräkna koefficienterna i uttrycket

ib

NN xbxbxbxbby +++++= ...ˆ 3322110 (8.1)

utgående från sammanhörande mätningar av . Mätvärdena kan sam-manställas till en rådatamatris

Nxxxy ,,,, 21 K

n

yxxxx

M

L

21nrFörsök

4321

Variablerna kallas oberoende variabler och variabeln y beroende variabel. Värdena på de oberoende variablerna kan vara beräknade utgående från värden på andra vari-abler (kvadrater, korsprodukter) och sambandet mellan y och dessa kan således vara icke-lineärt. Det att uttrycket (8.1) är lineärt i avseende på b-koefficienterna gör att metoden kallas lineär regressionsanalys.

1x

8.2 Korrelationsmatris Korrelationskoefficienten beskriver hur värdena i två kolumner i rådatamatrisen varie-rar i förhållande till varandra. Korrelationskoefficienten beräknas med formel (8.2) där i betecknar den ena kolumnen ( ) och j den andra ( ). ix jx

( )( )

( ) ( )∑∑

==

=

−−

−−=

n

jjj

n

iii

n

ijjii

ij

xxxx

xxxxr

1

2

1

2

1 (8.2)

Korrelationskoefficienten har följande egenskaper: Om och har varierat helt oberoende av varandra (diagram versus visar en punktsvärm som inte tyder på samband), är . Om antar ett positivt värde (max.

ix jxix jx

0=ijr ijr 1+ ) har och varierat så, att ett högt värde på i medeltal har givit ett högt värde på . Om antar ett negativt värde (min. ), har ett högt värde på i medeltal givit ett lågt värde för och vice versa.

ix jxix jx ijr

1− ix jx

Då korrelationskoefficienterna sammanställs i tabellform kallas tabellen korrelations-matris

55

Page 56: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

NN

N

N

N

N

rN

rrrrrrrrrrrrrrN

MOM

L

L

L

L

L

444

33433

2242322

114131211

4321

4321

Matrisen är symmetrisk och därför behöver endast ena halvan presenteras. Diagonalen o.s.v. består av ettor, eftersom en kolumn givetvis måste korrelera fullständigt

med sig själv. 2211,rr

8.3 Beräkning av b-koefficienter med minsta-kvadratmetoden

Om man antar att koefficienterna ),,1,0( nibi K= i likheten (8.1) har bestämts på något sätt, så kan man med denna likhet beräkna ett numeriskt värde . Avvikelsen blir

iy

iNiNiiiii yxbxbxbbyye −++++=−= K22110ˆ (8.3)

Vid regressionsanalys bestämmer man värdet på koefficienterna så att kvadrat-summan av avvikelsernas kvadrater minimeras.

ibRS

(8.4) ( )∑∑==

−++++==n

iiNiNii

n

iiR yxbxbxbbeS

1

222110

1

2 K

För modeller som är lineära i avseende på koefficienterna har problemet en analy-tisk lösning, och b-koefficienterna behöver inte bestämmas med hjälp av någon sök-metod. I följande resonemang skrivs summorna förenklat så att t.ex. summan av alla värden i -kolumnen i rådatamatrisen skrivs

ib

2x

∑∑ ==

21

2 xxn

ii

Om man deriverar uttrycket (8.4) partiellt i tur och ordning i avseende på b-koefficienterna och sätter derivatorna = 0, får man ett ekvationssystem som är lineärt i avseende på koefficienterna . nbbb ,,, 10 K

56

Page 57: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

( )

( )

( ) 02

02

012

110

11101

1100

=⋅−+++=∂∂

=⋅−+++=∂∂

=⋅−+++=∂∂

nNNN

R

NNR

NNR

xyxbxbbbS

xyxbxbbbS

yxbxbbbS

K

M

K

K

(8.5)

omformning ger

∑ ∑∑

∑ ∑ ∑∑∑

∑ ∑

=+++⋅

=+++⋅

=+++⋅

yxxbxxbxb

yxxxbxbxb

yxbxbnb

NNNNN

NN

NN

2110

1121110

110

K

M

K

K

(8.6)

I praktiken utnyttjar man för lösning av ekvationssystemet (8.6) lineär algebra, varvid vissa omformningar sker. Ekvationssystemet (8.6) består av 1+N ekvationer med

obekanta. 1+N

8.4 Egenskaper för kvadratsummor och variansanalys Den totala kvadratsumman kring y-kolumnens aritmetiska medelvärde kan uppdelas i två delar, en del som förklaras av modellen och en del som inte kan förklaras

( ) ( ) ( )∑ ∑ ∑ −+−=− 222 ˆˆ iiii yyyyyy (8.7)

RMT SSS +=

TS = total kvadratsumma, frihetsgrader 1−n

MS = av modellen förklarad kvadratsumma, frihetsgrader N

RS = residualkvadratsumman, 1−− Nn frihetsgrader

RS är just den kvadratsumma som har minimerats vid beräkningen av b-vektorn. Att den har frihetsgrader kan inses av följande resonemang. 1−− Nn

Har man t.ex. skall man vid estimering av dra en rät linje genom två punkter. Det finns ett sätt på vilket detta kan ske, alltså har man ingen frihetsgrad. Är

har man redan 1 frihetsgrad. han man t.ex.

2,1 == nN 1b

3,1 == nN 4,3 == nN så är förhållandet att man har en entydig algebraisk lösning. Löser man 3 ekvationer med 3 obekanta, blir ; man har ingen frihetsgrad. För varje ny observation får man en frihets-grad till.

0=RS

TS har frihetsgrader, eftersom antalet värden i y-kolumnen är n och 1 frihets-grad har förbrukats för beräkning av .

1−n0y

57

Page 58: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

MS har frihetsgrader. Summan av frihetsgraderna för och bör bli lika med frihetsgraderna för . Vid uppdelning av en kvadratsumma i delar kan även frihets-graderna uppdelas.

N MS RSTS

T

M

SSR =2 (8.8)

Multipelkorrelationskoefficienten, 2R , uttrycker hur stor del av variationerna i y-värdet man kunnat förklara med hjälp av modellen. Denna koefficient duger emeller-tid inte för test av modellens signifikans. En sådan storhet är däremot det totala F-värdet

( ) 2

2

1 R

M

R

MTOT s

sNnSNSF =−−

= (8.9)

vilket följer en F-fördelning med och N 1−− Nn frihetsgrader.

Hypotesen brukar uppfattas så, att om den kan accepteras, är modellen till sin helhet signifikant. Acceptans sker om

22RM σσ >

( )[ ]1,1 −−> − NnNFFTOT α

enligt i tidigare sammanhang klargjorda principer.

För den viktiga testen av de enskilda variablernas signifikans resonerar man på föl-jande sätt: Säg att vi vill testa hypotesen

0≠jb (8.10)

Detta kan ske så att man gör en regressionsanalys med variabeln medtagen, och en med densamma utelämnad. Man beräknar residualkvadratsumman och kvadratsum-man förklarad av modellen , med variabeln medtagen och av modellen förklarad kvadratsumma med parametern i fråga utelämnad. Det partiella F-värdet

jx

1RS 1MS jx2MS

( ) 21

2

1

21

1 R

M

R

MMj s

sNnSSSF ∆

=−−

−= (8.11)

bör följa en F-fördelning med 1 och 1−− np frihetsgrader. Hypotesen (8.10) kan vi-sas vara analog med hypotesen (8.12)

(8.12) 21

2RM σσ >∆

58

Page 59: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

om hypotesen (8.12) accepteras är förbättringen i den varians som förklaras av model-len signifikant större än residualvariansen, och kan följaktligen inte skyllas på det sto-kastiska bruset. Eftersom hypotesen (8.10) accepteras säger man att har signifikant inverkan på y. Hypotesen accepteras om

jx

( )[ ]1,11 −−> − NnFFj α (8.13)

I praktiken beräknas de partiella F-värdena ur den inverterade matris som beräknas vid lösningen av minsta-kvadratproblemet.

Man kan även i stället för de partiella F-värdena använda partiella t-värdet eftersom det partiella F-värdet helt enkelt är det partiella t-värdet i kvadrat. Det partiella t-värdet är b-koefficientens estimerade standardavvikelse dividerat med b-koefficientens absoluta värde vilket gör att en jämförelse av det partiella t-värdet med det tabellerade även är ett nollhypotestest av b-koefficienten enligt ekvation (8.10).

8.5 Variabeltransformation och ”Backward elimination pro-cedure”

Utgående från rådatamatrisen kan nya variabler skapas genom att man utför matema-tiska operationer på kolumnerna. Säg att man vill bestämma b-koefficienterna i ut-trycket

(8.14) 2112211122110 xxbxbxbxbby ++++=

utgående från en rådatamatris med sammanhörande observationer på , och 1x 2x y . Man måste då skriva två kolumner till, en med och den andra med . Det kan t.ex. se ut på följande sätt (siffrorna är fiktiva):

21x 21 xx ⋅

⋅⋅⋅⋅⋅

⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅

⋅==

p

yxxxxxxx

M

7654

13051513173800641008215084421

21421321

Genom att utföra en regressionsanalys med den nya matrisen och bestämma och , där och 3210 ,,, bbbb 4b 113 bb = 124 bb = , kan den lineära multipelregressionsana-

lysen utnyttjas för att man skall kunna beräkna även krökta samband och samverkan mellan oberoende variabler.

59

Page 60: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Genom att därefter beräkna de partiella F-värdena, t.ex. (fiktiva siffror)

)(för2)(för8

)(för30)(för55

350

21124

21113

222

111

xxbFxbF

xbFxbF

FTOT

==

===

och jämföra det lägsta F-värdet med det tabellerade F-värdet för 5 % risknivå, kan man signifikanstesta variablerna en åt gången. Om det lägsta F-värdet är mindre än det tabellerade, stryks den term ur regressionen som svarar mot detta värde, t.ex.

0.4=TABF

variabel 4 insignifikant.

Regressionsanalysen görs om från början med kolumn 4 ( 21 xx ⋅ ) utelämnad. Svaret kan t.ex. se ut på följande sätt eftersom de partiella F-värdena liksom också b-koefficienterna förändras när en kolumn stryks.

0.41085160500

3

2

1

=====

TAB

TOT

FFFF

F

I detta fall blev modellen

211122110 xbxbxbby +++=

I det fall att den sämsta variabeln hade varit insignifikant hade denna kolumn strukits ur regressionen och beräkningen hade gjorts om från början.

Denna metod kallas ”Backward elimination procedure”. Om alla oberoende variabler blir eliminerade, är den slutliga modellen

yy = (8.15)

vilket är en förvånansvärt användbar och vanlig processmodell.

Modellbygge och regressionsanalys på detta sätt är ett fint verktyg i händerna på en expert, men kan leda till felaktiga slutsatser om det missbrukas. Mera detaljer och hur arbetet skall bedrivas framkommer under föreläsningar och räkneövningar.

60

Page 61: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

9

9.1

9.2

9.3 Minimumkorrelering

9.4

Planering av försöksserier med sikte på regres-sionsanalys av försöksresultaten

Inställbara och icke-inställbara variabler Vid undersökning av en process har man i allmänhet en eller flera beroende variabler (y-variabler) och man vill undersöka på vilket sätt en eller flera oberoende variabler (x-variabler) påverkar den beroende variabeln. De oberoende variablerna kan indelas i sådana som vid försökets utförande kan styras in på vissa nivåer (d.v.s. inställbara va-riabler), och sådana som endast kan registreras, men som antas kunna ha inverkan på den beroende variabeln (d.v.s. icke-inställbara variabler). Försöksplaneringen betyder att man för varje försök som syftar till att få fram en mätserie med sammanhörande värden på alla oberoende och beroende variabler på förhand bestämmer nivåerna på de inställbara variablerna.

Randomisering Man tänker sig en kolumn med de värden på en viss inställbar variabel som man öns-kar vid varje försök. Randomisering innebär att man i denna kolumn slumpvis sprider ut olika värden på den inställbara variabeln. Antalet nivåer kan vara stort, men också litet, om det t.ex. är fråga om en kvalitativ variabel. Randomiseringen kan utföras för hand, men det bästa resultatet fås om det görs med hjälp av dator.

Efter att man utfört randomiseringen, bör man beräkna en korrelationsmatris för för-söksplanen. Om stora positiva eller negativa värden finns för de partiella korrelations-koefficienterna (3 och större), kan man försöka stegvis modifiera försöksplanen för att minska på dessa samvarianser. Proceduren kan genomföras för hand, men om antalet inställbara variabler är mycket stort, fås det bästa resultatet om man utför proceduren på dator. Alltför stora korrelationer mellan inställbara variabler kan leda till nonsens-resultat. Men det finns inga regler för hur stora korrelationer som tillåts, utan man måste lite på omdöme och erfarenhet.

För variabler på flera nivåer användes ofta s.k. BOX-försöksplaner, med dessa kan numera ersättas med datorkonstruerade planer varvid man förlorar något i stringens, men kan uppnå gott resultat med betydligt färre experiment än vad en BOX-plan skul-le förutsätta.

Datorprogram för försöksplanering Med användande av olika standardiserade sökrutiner kan man uppgöra datorprogram för utförande av hela proceduren randomisering – minimumkorrelering. Ett sådant datorprogram är t.ex. FPLAN, vilket är uppgjort vid institutionen för anläggningstek-nik. Med hjälp av detta program kan en sådan försöksplan genereras att inga stora kor-relationer förekommer i försöksplanens korrelationsmatris. Programmet innehåller också möjlighet till uppordning av försöksplanen för att man skall kunna utföra försö-ken i den ordningsföljd som är lämpligast ur praktisk synpunkt.

61

Page 62: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

9.5 Nonsenseliminering

9.6

Korrelationer mellan inställbara och icke-inställbara variabler är bestämd av proces-sen på samma sätt som korrelationer mellan oberoende och beroende variabler. Där-emot är korrelationer mellan inställbara variabler tecken på att försöksplanen är orik-tig. Om två inställbara variabler korrelerar med varandra positivt eller negativt och någon av dessa variabler påverkar y-värdet, kan inte regressionsanalysens elimine-ringsprocedur vid en tillräckligt stor residualvarians bedöma vilken av dessa variabler som är den som verkligen påverkar y-värdet. Fel variabel kan elimineras ur regressio-nen. Detta kallas för nonsenseliminering.

Partiella F-värden Vid multipel regressionsanalys enligt ”Backward elimination procedure” märker man, i synnerhet när man har en komplicerad matematisk modell med många termer vilka är sammansatta av ursprungsvariablerna, ofta att de partiella F-värdena för de variab-ler som blir kvar i regressionen stiger, när insignifikanta variabler elimineras. Detta beror på samvarians mellan dessa variabler. Man kan nämligen tänka sig det partiella F-värdet beräknat så att regressionen upprepas med den testade variabeln ute ur mo-dellen. Förbättringen av kvadratsumman förklarad av modell i förhållande till residu-alvariansens skattning är ju det partiella F-värdet för ifrågavarande variabel. Eftersom variablerna samvarierar, måste båda variablernas partiella F-värde bli lågt. När den ena är ”ute”, så är den andra ”inne” o.s.v. Vid elimineringen blir den kvarvarande va-riabeln den som ensam förklarar inverkan på y, varvid dess förbättrande verkan på kvadratsumman förklarad av modellen i förhållande till de övriga variablerna stiger och därmed också denna signifikanta variabels partiella F-värde.

Korrelationsmatrisens tolkning och jämförelse med hela elimineringsprocedurens par-tiella F-värden är därför av betydelse, när man skall tolka resultaten av en regres-sionsanalys och hitta förklaringarna på varför variabler elimineras och vilken process-teknisk tolkning en sådan eliminering måste ha. Eftersom ofta inställbara och icke-inställbara variabler samvarierar, vilket tidigare nämnt beror på processen, ligger det nära till hands att någon av dessa elimineras. Om t.ex. den inställbara variabeln elimi-neras (kontrollera partiella F-värden!), betyder detta alltså inte heller alltid att proces-sen inte à priori går att styra i avseende på denna variabel. Om en icke-inställbar vari-abel som tydligt (partiell korrelation!) blivit kvar i processen och påverkas av en eli-minerad icke-inställbar variabel, bör regressionsanalysen köras om med den icke-inställbara variabeln avsiktligt utelämnad.

För att man överhuvudtaget skall kunna förfara på detta sätt och för att tolkningarna av de partiella F-värdena och korrelationsmatrisen skall vara relevanta, måste korrela-tionerna mellan inställbara variabler vara synnerligen små. Den tid man använder på försöksplaneringen är i allmänhet väl använd.

62

Page 63: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

10

10.1

Tidsserieanalys

Allmänt om tidsserieanalys I processundersökningar är det, i synnerhet om det är fråga om moderna kontinuerliga processer, vanligt att data registreras genom ”loggning” vilket betyder att samtliga processdata mäts och registreras med ett visst tidsintervall, s.k. ”samplingsintervall” vilket normalt är lika stort för alla sådana variabler som har en mätare inkopplad hela tiden. Vissa variabler, speciellt sådana som kräver provtagning och analys, antingen manuellt eller automatiskt, införs i databasen med betydligt längre samplingsintervall. En på detta sätt registrerad datavektor kallas allmänt för en tidsserie.

Tidsserieanalys går ut på att man inom tidsserierna analyserar periodicitet och trender (autokorrelogram, Fourier-analys, glidande medelvärde och lineär regressionsanalys), samt att man mellan tidsserierna analyserar om någon variabel påverkar en annan ef-ter en känd eller okänd tidsförskjutning (korskorrelogram).

Inom flygplanstekniken kan periodiska svängningar vara mycket farliga, i synnerhet om det finns risk att de överlappar varandra genom stående vågrörelser (energireso-nansfenomen). Vibrationer i maskinfundament, fläkt- och turbinvingar är en annan tillämpning. Eftersom det då är fråga om snabba svängningar med korta perioder an-vändes nuförtiden specialgjorda instrument bestående av loggningsenhet med kapaci-tiva snabba givare, AD-omvandlare och snabba processorer som on-line utför auto-korrelationsberäkningar, Fourier-analys och korskorrelationsberäkningar. Tidigare var instrumenten analoga och av oskilloskoptyp. De moderna mätinstrumenten kan även utföra avancerade svängningsfysikaliska beräkningar. Den som är intresserad av detta bör studera högre kurser i fysik.

För de off-line processundersökningar av långsamma processer som den vanliga ke-miingenjören kan råka ut för klarar man sig bra med en PC och något lämpligt pro-gram där man programmerar in analysen själv.

Inom audiotekniken definieras en ”ton” som en periodisk svängning, medan ett ”bul-ler” definieras som en icke-periodisk svängning, det s.k. stokastiska bruset (white noi-se). Logaritmen av ljudtrycksförhållandet stokastiskt brus till ton (dB) är ett mått på ”distorsionen”. Liknande betraktelser finns i reglertekniken och framförallt inom elek-trotekniken.

Det är att observera att ”normal” utvärdering av samband mellan data i en datamatris t.ex. med hjälp av regressionsanalys kräver att värdena är sammanhörande i tiden. Om man säkert vet att så är fallet, tar man ej med tiden i dessa utvärderingar, men om man misstänker tidsförskjutningar så bör kolumnerna i en sådan datamatris förskjutas ver-tikalt så att data blir sammanhörande i tiden. Om man inte vet hur stora förskjutning-arna som borde utföras, kan olika korskorrelogram ge information om detta.

63

Page 64: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Inom ekonomiska vetenskaper är tidsserieanalys populärt och samtidigt mycket farligt eftersom en ren matematisk behandling av ekonomiska tidsserier sällan kan beakta de förändringar i omgivningen som bryter trenden eller periodiciteten. Som exempel på detta kan man nämna spekulation i fastighetsvärden (trend uppåt hela tiden som man anser bara fortsätter), behovet av elkraft i framtiden (man extrapolerar trender uppåt) eller någon annan uppåt- eller nedåtgående trend. Även konjunkturförutsägelser (au-tokorrelogram) kan vara vanskliga om periodlängden inte hålls samma som tidigare.

10.2

10.3

}

Glidande medelvärde och trendanalys Om man med säkerhet vet periodlängden (årstiden för temperatur, dygnet för elför-brukning etc.) eller har fått reda på den med autokorrelogram, kan man genom att bil-da medelvärde över en period = periodlängden, få fram en periodutjämnad linje (kompenserad för säsongvariationer). Det glidande medelvärdet ”glider” alltså framåt med en sampling i gången så att ett gammalt värde ”glöms” samtidigt som ett nytt som in i andra ändan. En eventuell långtidstrend ses då tydligare och kan matematiskt fås fram med en enkel regressionsanalys. Ett annat alternativ, och bättre med tanke på test av statistisk signifikans, är att utnyttja s.k. rekursiv regressionsanalys med utnytt-jande av den kända periodlängden. Det finns ett stort antal matematiska möjligheter att filtrera bort bruset från signalen och färdiga dataprogram för ändamålet.

Auto- och korskorrelogram Med autokorrelogram undersöks huruvida någon variabel är periodisk eller inte (t.ex. kolpulvermatningen till en ugn), med korskorrelogram undersöks huruvida nå-gon variabel påverkar en annan efter en viss känd eller okänd tidsförskjutning (t.ex. om temperaturen i en plastextruder påverkar plastfilmens tjocklek, om koncent-rationsvariationer i inloppslådan till en pappersmaskin påverkar papperskvaliteten).

Vi uppfattar då en tidsserie av variabel X som en stokastisk process

{ K,2,1,0),( =iiX (11.1)

Vidare uppfattas den andra tidsserien av variabel Y som en stokastisk process

{ K,2,1,0),( }=iiY (11.2)

För stokastiska variabler kan man karaktärisera en variation och en samverkan genom den stokastiska variabelns varians och de stokastiska variablernas kovarians (se kur-serna i matematik).

Kovariansen är mindre lämplig att använda eftersom den är dimensionell och beroen-de av siffervärdena på variablerna. Man använder därför kovariansen av de normera-de variablerna eller den välkända korrelationskoefficienten.

För att beräkna korskorrelogrammet beräknar man därför korrelationskoefficienten mellan X och Y som funktion av tidsförskjutningen

64

Page 65: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

{ K,3,2,1, }=∆ ii (11.3)

där vi kan beräkna förskjutningen i båda riktningarna, X before Y och Y before X. I praktiken vet vi alltid vilken variabel som borde ”svara” senare i tiden, och i vårt fall är det X som är ”input” och Y som är ”output”, alltså X before Y.

I detta fall skall Y stegvis förskjutas ”till vänster” och korrelationskoefficienten skall beräknas för varje förskjutning.

NNN

N

XXXXXXX

YYYYYYY

124321

654321

−−L

bbbbb

L

varvid ovanstående visar en förskjutning på 2=∆i . Ett korrelogram visande korrela-tionskoefficienten med stigande tidsförskjutning bör visa en topp som är väsentligt högre än de toppar som kommer från det ”stokastiska bruset” för att man skall kunna säga att det finns en tidsförskjuten korrelation mellan variablerna.

För att beräkna autokorrelogrammet utförs samma operation, men så att variabeln för-skjuts mot sig själv. Om det inte finns någon periodicitet i variabeln består autokorre-logrammet enbart av stokastiskt brus. Det startar alltid från värdet när tidsför-skjutningen = 0 (variabeln korrelerar perfekt med sig själv). Om en periodiskt före-kommande topp korrelerar med en vågdal, får man ett så stort negativt värde vid ”hal-va våglängden” att detta signifikant skiljer sig från det stokastiska bruset. När en hel periodlängd har gått, bör man få en signifikant topp i autokorrelogrammet och den första positiva höga toppens tidsförskjutning är periodicitetens våglängd.

1+

Därefter finns givetvis, om signalen är periodisk, toppar och dalar på multipler av våglängden och halva våglängden, men det är bara den första toppen som skall räknas.

Nu måste man observera att en större industriprocess (t.ex. en kontinuerlig cellulosa-kokare) har ett stort antal återkopplade regulatorkretsar och dessa åstadkommer av naturliga orsaker periodiciteter i systemet. Mäter man på en sådan process gäller det att akta sig för att dra alltför långt gående slutsatser av de samband man hittar, det be-höver inte vara fråga om någon störning som ens går att reglera bort, utan det kan vara fråga om till processen hörande svängningar som åstadkoms av regulatorerna. Försö-ker man eliminera dessa genom att höja reglerförstärkningarna och de deriverade ter-merna kan man göra systemet instabilt och åstadkomma kollaps. Och då kan man räk-na med en viss kritik från ansvariga ingenjörer, lindrigt sagt.

Det är mycket enkelt att programmera beräkning av autokorrelogram on-line direkt i den loggningsmiljö som förefinns, t.ex. LabWindows, LabView eller något kommer-siellt processtyrningssystem. Kommer man åt att överföra den loggade datafilen till en PC, kan man enkelt programmera rutinerna off-line direkt i Excel, Fortran, Basic, Pa-scal eller MatLab.

65

Page 66: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

I exemplet som följer är loggningen utförd med en Hewlett Packard datalogger och beräkningen med Statgraphics. Exemplet är starkt förenklat av pedagogiska skäl

10.4 Exempel på processanalys med korskorrelogram En process för tillverkning av kondensatorfilm av ett plastmaterial består av en upp-hettad extruder där plastmaterialet smälts och kommer ut som ett rör. Röret blåses upp till en stor ballong vars väggar blir allt tunnare vartefter som ballongen expanderar uppåt i fabriksbyggnaden. Till sist släpps luften ut stegvis och filmen skärs och rullas upp.

Tjockleken på filmen varierar mellan 2,05 och 1,95 mikrometer med ett börvärde på 2,00 mikrometer. Denna variation är alltför stor och måste minskas. Man vet varken uppehållstiden mellan extrudern och tjockleksmätaren (filmen blir tunnare hela tiden) eller vilka processparametrar som påverkar filmens tjocklek. Man loggar därför ett stortantal processparametrar tillsammans med filmtjockleken och analyserar därefter data med hjälp av tidsserieanalys, här visas några parametrar som exempel

tprod = produktionstiden minuter

rextr = varvtal för extruderns matarskruv 0,95 – 1,05 rpm

textr = temperaturen i extrudern 117,8 – 118,2 ºC

delta = kondensatorfilmens tjocklek 1,95 – 2,05 µm

Figur 1 visar rextr som funktion av tprod.

Figur 2 visar textr som funktion av tprod.

Figur 3 visar delta som funktion av tprod.

Därefter beräknades och utritades autokorrelogram av rextr, textr och delta (ej visade här i figur). Ingen periodicitet kunde skönjas, all korrelationskoefficienter var under

. 40,0±

Figur 4 visar korskorrelogrammet rextr – delta. Ingen signifikant korrelation kan märkas, alla korrelationer är mindre än 0,40. Det är alltså inte varvtalsregleringen som man borde förbättra.

Figur 5 visar korskorrelogrammet textr – delta. Efter en tydligen insignifikant positiv korrelation efter 7 minuter (+0,45) kommer en stark negativ korrelation efter ca10 mi-nuter (-0,70). En något för het extruder åstadkommer tydligen en alltför tunn film, och detta är mycket logiskt. Uppehållstiden extruder – tjockleksmätare är synbarligen runt 10 minuter, (men starkt beroende på vilken produktkvalitet man kör för tillfället).

På fabriken trodde man att den mycket dyra temperaturregleringen var tillräckligt bra och att tjockleksvariationerna berodde på något annat. Men efter denna undersökning måste man ytterligare förbättra temperaturstyrningen och då fick man ner tjockleksva-riationerna.

66

Page 67: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Efter förbättring av temperaturregleringen blev tjockleksvariationerna tillräckligt låga för den japanska elektronikindustrin.

Figur 1 Varvtal (rpm) versus tid (min)

Figur 2 Temperatur (C) versus tid (min)

67

Page 68: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Figur 3 Tjocklek (mikrometer) versus tid (min)

Figur 4 Korskorrelogram varvtal – tjocklek

68

Page 69: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Figur 5 Korskorrelogram temperatur – tjocklek

11

11.1 Allmänt

En- och tvåvägs variansanalys

Med lineär och icke-lineär regressionsanalys undersöks och testas en eller flera kvan-titativa eller kvantifierbara oberoende variablers inverkan på en eller flera beroende variabler. Det existerar variabler, vilka inte går att kvantifiera på något sätt genom att dessa variabler dels är kvalitativa och dels har för många nivåer. Sådana variabler är t.ex. ”omrörarmodell 1, 2, 3 eller 4”, ”tillsatsmedel av fabrikat A, B eller C”, ”kataly-satortyp A, B, C eller D” o.s.v.

Även om t.ex. katalysatortypen kunde karaktäriseras av någon speciell kvantifierbar egenskap, t.ex. partikelstorlek, är det inte givet att denna kvantifierbara egenskap är den rätta utgångspunkten vid försöksplaneringen. Detta skulle förutsätta att det är just den egenskapen som inverkar på den beroende variabeln. Men det kan ju finnas andra skillnader mellan katalysatortyperna som åstadkommer inverkan, t.ex. specifika ytan eller någon annan svårmätbar storhet. I fall liknande det ovan skisserade måste man ofta reducera ambitionsnivån vid det experimentella arbetet på följande sätt.

Man strävar inte längre till att bygga en matematisk modell för processen, och inte heller att undersöka kvantitativt hur mycket de olika variablerna inverkar. Frågeställ-ningen blir istället om dessa kvalitativa variabler signifikant inverkar på den beroen-de variabeln överhuvudtaget.

Formuleringen av hypoteserna kan beskrivas enligt följande exempel

Hypotes 1. Valet av omrörarmodell inverkar på utbytet.

Hypotes 2. Valet av märke på tillsatsmedel inverkar på utbytet.

Hypotes 3. Valet av katalysatortyp inverkar på utbytet.

69

Page 70: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Vid seriöst forskningsarbete måste även kvalitativa variabler behandlas efter de vikti-ga grundprinciperna att experimenten bör upprepas och att de erhållna slutsatserna bör testas.

11.2 Envägs variansanalys I det enklaste fallet av variansanalys har man endast en kvalitativ variabel och man önskar testa hypotesen att denna variabel inverkar på en beroende variabel. Som ex-empel kan tas kemisk vattenrening med kalk och polyelektrolyt. Vi tror oss veta, att vi kan hålla jonstyrka och pH på en optimal nivå, som är samma för alla typer av polye-lektrolyten polyakrylamid. Sedan har vi t.ex. fem olika fabrikat av polyakrylamid. Vi får olika resultat med utfällningsförsöken, om vi använder olika fabrikat. Vi frågar oss

”Beror dessa skillnader på att de olika fabrikaten ger olika fällningsresultat eller beror de på slumpen?”

Vi har en kvalitativ variabel på m nivåer ( 5=m ) och för den i:te nivån gör vi st experiment (om , gör vi fem utfällningsförsök med fabrikat nr 2). Vi mäter en beroende variabel y, eller flera oberoende variabler. (y = reningsgrad, reduktion av fasta partiklar, reduktion av kemisk syreförbrukning, klarskiktets BS7 eller något an-nat mått).

il52 =l

Resultaten är i tabellform

mmlmmm

l

l

yyyyym

yyyyyyyyyyy

mL

MMMMMM

L

L

321

22232221

11131211

2

1

21våvariabelni

=

När man utfört experimenten beräknas totalt medelvärde

∑∑= =

=m

i

l

jij

i

yn

y1 1

1

där

∑=

=m

iiln

1

Radernas medelvärden

∑=

=il

jij

ii y

ly

1

1

70

Page 71: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Idén med variansanalys är att man kan förklara de variationer som uppstår i y-värdet dels med det stokastiska bruset, d.v.s. mätonoggrannhet, inverkan av icke-kontrollerbara variabler m.m., och dels med att det skulle finnas en inverkan av den kvalitativa variabel, vars inverkan man önskar undersöka. Man kan uppdela den totala kvadratsumman för y i en del som förklaras av variationer mellan raderna och en an-nan del som förklaras av variationer inom raderna, eller av det stokastiska bruset.

Med användande av på föregående sida fastslagna beteckningar fås

( ) ( ) ( )

radernainomradernamellanmakvadratsumtotal

1 1 1 1 1

222

IRT

m

i

l

j

m

i

m

i

l

jiijiiij

SSS

yyyylyyi i

∑∑ ∑ ∑∑= = = = =

−+−=−

På föregående sida hade vi frågat oss om de variationer vi fått i mätresultaten beror på att de olika fabrikaten ger olika utfällningsresultat, eller om de beror på slumpen. Vi bör nu uppställa en hypotes, och den får följande ordalydelse:

”Vi får olika utfällningsresultat beroende på vilket fabrikat vi använt.”

eller allmänt

”Den kvalitativa variabeln inverkar.”

Om hypotesen skulle accepteras, måste man anse att skillnaden mellan ra-derna är signifikant, och att den kvalitativa variabelns inverkan signifikant kan skiljas från det stokastiska bruset. Givetvis måste även antalet frihetsgrader beaktas. Hur det-ta sker klarlägges av följande variansanalystabell

22IR σσ >

Källa frihetsgrader kvadratsumma variansens skattning

mellan rader 1−m RS ( )12 −= mSs RR

inom rader mn − IS ( )mnSs II −=2

totalt 1−n TS

Kvoten 22IRber ssF = bör (se avsnittet om statistiska tester) följa en F-fördelning med

och frihetsgrader. Detta faktum kan utnyttjas för en test av den ovan formulerade hypotesen, vilken följaktligen kan accepteras om

1−m mn −

( ) ( )[ ]mnmFFber −−> − ,11 α

71

Page 72: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

11.3 Tvåvägs variansanalys Vid tvåvägs variansanalys har man två kvalitativa variabler och man önskar undersö-ka om någon av dem eller eventuellt båda påverkar en beroende variabel. Vi kan fort-sätta med den kemiska vattenreningen. Nu antar vi vidare att vi kan utföra dessa fäll-ningsförsök med t.ex. åtta olika typer av avfallsvatten. Dessa vatten har en så komplex sammansättning, att innan man gör försök att kvantifiera avfallsvattenegenskaperna (om detta är möjligt), utför man experiment med olika fabrikat polyakrylamid och oli-ka typer av avfallsvatten. Efter utförda experiment frågar man sig:

1. ”Beror skillnaderna i resultat på att olika fabrikat polyakrylamid ger olika re-sultat?”

2. ”Beror skillnaderna i resultat på att vi får olika reningsresultat med olika av-fallsvatten?”

Allmänt har vi alltså två kvalitativa variabler, de ena kan anta r nivåer (t.ex. för fem fabrikat), och den andra kan anta k nivåer (

5=r8=k , om vi har åtta olika avfallsvat-

ten att rena). Den enklaste formen av försöksplan för detta fall är att man utför försök med samtliga tänkbara kombinationer av de kvalitativa variablerna, ett försök med varje kombination. Teorin för detta finns beskriven i litteraturen. Här redogörs för det fallet att man har ett försök med varje kombination.

Tabellen blir av följande slag

radmedelvärden

ena variabeln 1 2 3 L k iy

andra variabeln 1 11y 12y 13y L ky1 1y

2 21y 22y 23y L ky2 2y

M M M M M M

r 1ry 2ry 3ry L rky ry

kolumnmedelvärden jy 1y 2y 3y L ky

Man utför experimenten enligt försöksplanen och beräknar totalt medelvärde

∑∑= =

=r

i

k

jijy

kry

1 1

1

radernas medelvärde

∑=

==k

jiji riy

ky

1

,,3,2,11K

kolumnernas medelvärden

72

Page 73: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

∑=

==r

iijj kjy

ry

1,,3,2,11

K

På liknande sätt som tidigare kan man förklara de variationer man noterat i y-värdet dels med det stokastiska bruset, och dels med en eventuell inverkan av de kvalitativa variablerna. Man kan uppdela den totala kvadratsumman för y i tre delar, en del som förklaras av variationer mellan raderna, en del som förklaras av variationer mellan kolumnerna och så den sista delen som förklaras av det stokastiska bruset. Denna sista del kallas kvadratsumman förklarad av variationer inom rader och kolumner.

Eller i matematisk form

( ) ( ) ( ) ( )

kolumnerochraderinomkolumnermellanradermellanmakvadratsumtotal

1 1 1 1

2

1

2

1

22

IKRT

r

i

k

j

r

i

k

jjiij

k

jj

r

iiij

SSSS

yyyyyyryykyy∑∑ ∑∑∑∑= = = ===

+−−+−+−=−

Fråga 1 formuleras som en hypotes

”Vi får olika utfällningsresultat beroende på vilket fabrikat vi använt”

eller allmänt

”Den kvalitativa variabeln 1 inverkar”.

Om hypotesen skulle accepteras, måste man anse att skillnaden mellan ra-derna är signifikant, och att den kvalitativa variabelns inverkan signifikant skiljer sig från det stokastiska bruset.

22IR σσ >

Fråga 2 formuleras även som en hypotes

”Vi får olika utfällningsresultat beroende på vilken typ av avfallsvatten som under-sökts”

eller allmänt

”Den kvalitativa variabeln 2 inverkar”.

Om hypotesen skulle accepteras, måste man anse att den andra kvalitativa variabeln, vilken varierats från kolumn till kolumn, har en signifikant inverkan, vilken är större än det stokastiska bruset.

22IK σσ >

Vid test av dessa hypoteser måste antalet frihetsgrader beaktas. Hur detta skall ske framgår av följande variansanalystabell

73

Page 74: En metod för mätning av fasta absorbentersweb.abo.fi/fak/tkf/at/Kurser/Kompendier/Forsoksplanering... · 2006. 2. 20. · D. M. Himmelblau: Process Analysis by Statistical Methods

Källa frihetsgrader kvadratsumma variansens skattning

mellan rader 1−r RS ( )12 −= rSs RR

mellan kolumner 1−k KS ( )12 −= kSs KK

inom rader

och kolumner

( )( )11 −− kr IS ( )( )112 −−= krSs II

totalt 1−kr TS

Kvoten 22, IRRber ssF = bör följa en F-fördelning med 1−r och ( )( )11 −− kr frihets-

grader. Detta faktum kan utnyttjas för en test av den tidigare formulerade hypotesen , vilken följaktligen accepteras om 22

IR σσ >

( ) ( )( )[ ]11,11, −−−> − krrFF Rber α

På analogt sätt måste man även anse att kvoten 22, IKKber ssF = bör följa en F-

fördelning med 1−k och ( )( )11 −− kr frihetsgrader. Hypotesen kan alltså testas. Den accepteras om

22IK σσ >

( ) ( )( )[ ]11,11, −−−> − krkFF Kber α

Om vi återigen tar exemplet med vattenreningsexperimenten, så ser vi att accepteran-det av den förra hypotesen (skillnaden mellan rader signifikant) innebär, att vi har konstaterat att valet av fabrikat på polyakrylamiden signifikant påverkar reningsresul-tatet. Har vi flera beroende variabler kan inverkan på dessa testas analogt. T.ex.: Sig-nifikant inverkan på reduktion av fasta partiklar, ev. insignifikant inverkan på klar-skiktets BS7 o.s.v.

Den senare hypotesen innebär, om den accepteras, att avfallsvattentypen signifikant inverkar på reningsresultatet.

11.4 Flervägs variansanalys Vid flervägs variansanalys har man flera variabler än två. Försöksplaneringen måste nu ske på ett mera sofistikerat sätt, eftersom de många dimensionerna gör att antalet experiment kan bli orimligt stort. man lämnar ”luckor” enligt vissa system i de fler-dimensionella matriserna.

Ett ofta använt sätt är att försöka förenkla ned problemet till ett sådant som går att lösa med regressionsanalys. Då kvantifieras de kvalitativa variablerna med system av ettor och nollor. Antalet nivåer på den kvalitativa variabeln får inte vara för stort, för det mesta maximalt tre. Eftersom sådana kvantifieringar inte är normalfördelade, och det stokastiska bruset inte är okorrelerat, blir signifikanstesterna rätt så otillförlitliga och kan endast tjäna som metod att jämföra olika variablers inverkan med varandra.

74