chương 2 dạng hàm của các mô hình hồi quy · pdf file1 xem...

Chương 2

Dạng hàm của các mô hình hồi quy

Domadar N. Gujarati

(Econometrics by example, 2011).

Người dịch và diễn giải: Phùng Thanh Bình, MB (24/10/2017)

Chúng ta sẽ nhớ lại rằng mối quan tâm của ta trong cuốn sách này chủ yếu là

các mô hình hồi quy tuyến tính, nghĩa là, các mô hình tuyến tính ở các tham số;

chúng có thể hoặc không tuyến tính ở các biến. Trong chương này, chúng ta

xem xét một số mô hình tuyến tính ở các tham số nhưng không nhất thiết như

vậy ở các biến. Cụ thể, chúng ta sẽ thảo luận các mô hình thường được sử

dụng trong phân tích trong thực tế sau đây.

1. Các mô hình log-linear hoặc double log ở đó cả biến phụ thuộc và các

biến giải thích đều ở dạng logarít.

2. Các mô hình log-lin ở đó biến phụ thuộc có dạng logarít, nhưng các biến

giải thích có thể ở dạng logarít hoặc dạng tuyến tính.

3. Các mô hình lin-log ở đó biến phụ thuộc dạng tuyến tính, nhưng một

hoặc nhiều hơn các biến giải thích ở dạng logarít.

4. Các mô hình nghịch đảo ở đó các biến giải thích ở dạng nghịch đảo.

5. Các mô hình hồi quy với biến chuẩn hóa.

Chúng ta sẽ sử dụng một số ví dụ để minh họa các mô hình khác nhau trong

chương này.

2.1 Các mô hình log - tuyến tính, log kép, hoặc hệ số co giãn cố định

Chúng ta xem xét hàm sản xuất Cobb-Douglas nổi tiếng, có thể được thể hiện

như sau1:

Qi = B1LiB2Ki

B3 (2.1)

Trong đó: Q = output (sản lượng), L = labor input (nhập lượng lao động), K =

capital (vốn), và B1 hằng số.

Mô hình này là phi tuyến ở các tham số và để ước lượng mô hình này đúng như

bản chất của nó đòi hỏi các kỹ thuật ước lượng phi tuyến. Tuy nhiên, nếu chúng

ta lấy log của hàm số này, thì chúng ta sẽ có:

lnQi = lnB1 + B2lnLi + B3lnKi (2.2)

Trong đó, ln là logarít tự nhiên.

Đặt lnB1 = A, chúng ta có thể viết phương trình (2) như sau:

lnQi = A + B2lnLi + B3lnKi (2.3)

Phương trình (2.3) là tuyến tính ở các tham số A, B2, và B3 và vì thế là một

phương trình tuyến tính, mặc dù nó là phương trình phi tuyến ở các biến Q, L, và

Đưa thêm hạng nhiễu ui vào phương trình (2.3), chúng ta có mô hình hồi quy

tuyến tính sau đây:

1 Xem bất kỳ giáo trình kinh tế học vi mô nào để tìm hiểu về lịch sử và chi tiết về hàm sản xuất Cobb-Douglas. 2 Lưu ý: A = lnB1. Vì thế, B1 = anti-log(A), là phi tuyến tính. Tuy nhiên, trong hầu hết các ứng dụng, thì hệ số cắt có thể không có bất kỳ giải thích kinh tế nào rõ ràng (viable economic interpretation).

lnQi = A + B2lnLi + B3lnKi + ui (2.4)

Phương trình (2.4) được biết với các tên gọi khác nhau như mô hình log-log, mô

hình log kép (double-log), mô hình log-tuyến tính (log-linear), hoặc mô hình hệ

số co giãn cố định (constant elasticity model), bởi vì cả biến phụ thuộc và các

biến giải thích đều ở dạng log.

Một đặc điểm thú vị của mô hình log-tuyến tính là các hệ số độ dốc có thể được

giải thích như là các hệ số co giãn3. Cụ thể, B2 là hệ số co giãn (riêng phần)

của sản lượng theo lao động, khi giữ nguyên các biến khác không đổi (ở đây là

vốn, hay K). Nghĩa là, hệ số này cho biết thay đổi phần trăm về lượng theo

một thay đổi phần trăm của lao động, khi các yếu tố khác được giữ nguyên4.

Tương tự, B3 là hệ số co giãn (riêng phần) của sản lượng theo vốn, khi giữ

nguyên các biến khác không đổi. Vì các hệ số co giãn này cố định trong cả mẫu

quan sát được sử dụng, nên mô hình log kép cũng được gọi là mô hình hệ số

co giãn không đổi.

Một ưu điểm của các hệ số co giãn là chúng là các con số thuần khiết, nghĩa

là, không có các đơn vị đo lường trong các biến, chẳng hạn như theo đô la, số

giờ lao động, số giờ của vốn, bởi vì chúng là các tỷ số của những thay đổi phần

trăm.

Một tính chất thú vị khác của hàm sản suất Cobb-Douglas là tổng của các hệ

số co giãn riêng phần, (B2 + B3), cung cấp thông tin về hiệu suất thay đổi theo

quy mô (lưu ý: returns to scale khác với economies of scale - lợi thế kinh tế nhờ

quy mô nhé), nghĩa là, sự phản ứng của xuất lượng theo một sự thay đổi tỷ lệ

trong các nhập lượng. Nếu tổng này bằng 1, thì ta có hiệu suất không đổi theo

quy mô (constant returns to scale) - nghĩa là, tăng gấp đôi các nhập lượng sẽ

3 Một hệ số co giãn đơn giản là tỷ số của thay đổi phần trăm trong một biến chia cho thay đổi phần trăm trong một biến khác. Ví dụ, nếu Q là lượng và P là giá, thì thay đổi phần trăm trong lượng chia cho thay đổi phần trăm trong giá được gọi là hệ số co giãn theo giá. 4 Tức là: B2 = ∂lnQ / ∂lnL = (∂Q/Q) / (∂L/L) = (∂Q/∂L) x (L/Q); trong đó, chúng ta sử dụng ∂ để chỉ rằng chúng ta đang lấy đạo hàm riêng phần (partial derivative).

tăng gấp đôi xuất lượng, tăng gấp ba các nhập lượng sẽ tăng gấp ba xuất lượng,

và văn văn. Nếu tổng này nhỏn hơn 1, thì ta có hiệu suất giảm theo quy

mô (descreasing returns to scale) - nghĩa là, tăng gấp đôi các nhập lượng xuất

lượng sẽ không tăng gấp đôi. Cuối cùng, nếu tổng này lớn hơn 1, thì ta có hiệu

suất tăng theo quy mô (increasing returns to scale) - nghĩa là, tăng gấp đôi các

nhập lượng, xuất lượng tăng hơn gấp đôi.

Trước khi trình bày một ví dụ cụ thể, ta nên lưu ý rằng trong một mô hình hồi

quy dạng log - tuyến tính có liên quan đến nhiều biến, thì hệ số độ dốc của mỗi

biến giải thích cho biết hệ số co giãn riêng phần của biến phụ thuộc (nhớ là

không ở dạng log nhé) theo biến giải thích đó, khi giữ nguyên các biến khác

không đổi.

Hàm sản xuất Cobb-Douglas cho khu vực sản xuất của Mỹ

Để minh họa hàm Cobb-Douglas, ta sử dụng dữ liệu Bảng 2.1 về xuất lượng

(được đo bằng giá trị gia tăng, 1000 đô la), nhập lượng lao động (số giờ làm

việc của công nhân, 1000 giờ), và nhập lượng vốn (chi tiêu vốn, 1000 đô la) cho

khu vực sản xuất của Mỹ. Dữ liệu chéo gồm 50 bang và thủ đô Washington

trong năm 2005. Bảng dữ liệu này có thể tìm thấy trên website của cuốn sách.

Giải thích kết quả

Điểm đầu tiên cần lưu ý là tất cả các hệ số hồi quy (tức là các hệ số co giãn)

đều có ý nghĩa thống kê rất cao vì giá trị p của mỗi hệ số rất thấp. Thứ hai, dựa

trên thống kê F, ta cũng có thể kết luận rằng hai yếu tố nhập lượng, lao động

và vốn, kết hợp với nhau có ý nghĩa thống kê rất cao bởi vì giá trị p của thống

kê F rất thấp. Giá trị R2 là 0.96 cũng khá cao, điều này là bất thường đối với dữ

liệu chéo về các bang rất không đồng nhất. Các tiêu chí Akaike và Schwazr là

những thước đo thay thế của R2, các thước đo này sẽ được thảo luận kỹ hơn ở

phần sau của. Thống kê Durbin-Watson, mặc dù thường được cung cấp sẵn bởi

Eviews, nhưng có thể hoặc không phải luôn luôn hữu ích trong dữ liệu chéo,

mặc dù thỉnh thoảng nó là một dấu hiệu cho biết các lỗi sai dạng mô hình, như

ta sẽ thấy ở Chương 7 về các lỗi sai dạng mô hình.

Bảng 2.1: Hàm sản xuất Cobb-Douglas của Mỹ, 2005.

Dữ liệu: Table2-1

Lưu ý: Với Eviews, chúng ta có thể sử dụng log(Output), log(Labor), … mà

không cần phải tạo thêm các biến mới.

Hệ số của biến lnLABOR khoảng 0.47 được giải thích là nếu ta tăng nhập lượng

lao động thêm 1%, trung bình, sản lượng tăng thêm khoảng 0.47%, khi giữa

nguyên nhập lượng vốn không đổi. Tương tự, khi giữ nguyên nhập lượng

lao động không đổi, nếu ta tăng nhập lượng vốn thêm 1%, thì trung bình, sản

lượng tăng thêm khoảng 0.52%. Nói một cách tương đối, dường như một phần

trăm tăng thêm trong nhập lượng vốn đóng góp nhiều hơn cho sản lượng so với

một phần trăm tăng thêm trong nhập lượng lao động.

Tổng của hai hệ số độ dốc khoảng 0.9896, gần bằng 1. Điều này có thể cho

biết rằng hàm sản xuất Cobb-Douglas của Mỹ có đặc điểm là có hiệu suất

không đổi theo quy mô trong năm 20055.

5 Chúng ta sẽ không thảo luận ở đây câu hỏi liệu rằng một hàm sản xuất cho cả nước Mỹ nói chung có ý nghĩa hay không. Lý thuyết về chủ đề này rất nhiều. Mục tiêu chính của chúng ta là để minh họa mô hình log kép.

Tiện thể, nếu em muốn trở lại hàm sản xuất ban đầu như được cho trong

phương trình (2.1), thì ta viết ra như sau:

Qi = 48.79Li0.47Ki

0.52 (2.5)

Lưu ý: 48.79 là xấp xỉ của anti-log của 3.88766 [=EXP(3.8876)].

Đánh giá kết quả hồi quy

Mặc dù, được đánh giá bởi các tiêu chí thống kê thông dụng, kết quả của hàm

sản xuất Cobb-Douglas được cho ở Bảng 2.2 trong có vẻ ấn tượng, chúng ta

phải cảnh giác với khả năng xảy ra hiện tượng phương sai thay đổi. Đây là bởi

vì mẫu của chúng ta bao gồm các bang rất khác biệt, với các khu vực sản xuất

rất khác nhau. Quy mô tự nhiên (vật lý) và mật độ sản xuất cũng khác nhau

giữa các bang. Ở Chương 5, bàn về phương sai thay đổi, chúng ta sẽ xem xét

lại hàm sản xuất Cobb-Douglas để tìm hiểu xem liệu có vấn đề phương sai thay

đổi hay không.

Ở Chương 7, bàn về các lỗi về xác định mô hình, chúng ta cũng sẽ tìm hiểu

xem liệu hạng nhiễu có theo phân phối chuẩn hay không, vì các kiểm định t

và F phụ thuộc rất nhiều vào giả định phân phối chuẩn, đặc biệt là khi cỡ mẫu

nhỏ. Trong chương 7, chúng ta cũng sẽ xem xét liệu có bất kỳ lỗi xác định mô

hình trong hàm sản xuất Cobb-Douglas được sử dụng trong ví dụ của chúng ta

hay không.

Mặc dù dạng mô hình log kép của hàm sản xuất Cobb-Douglas là dạng

chuẩn trong lý thuyết, nhưng vì các mục đích so sánh, chúng ta cũng trình bày

kết quả hồi quy của hàm sản xuất dạng tuyến tính như sau:

Outputi = A1 + A2Labori + A3Capitali + ui (2.6)

6 Nhớ rằng A = ln B1, vì thế B1 = anti-log(A)

Kết quả hồi quy này được trình bày ở Bảng 2.3.

Bảng 2.3: Hàm sản xuất tuyến tính.

Các hệ số của lao động và vốn trong mô hồi quy này có ý nghĩa thống kê rất

cao. Nếu nhập lượng lao động tăng thêm một đơn vị, sản lượng trung bình tăng

thêm 48 đơn vị, khi giữ nguyên lượng vốn không đổi. Tương tự, nếu nhập lượng

vốn tăng thêm một đơn vị, sản lượng, trung bình, tăng thêm khoảng 10 đơn vị,

khi các yếu tố khác được giữ nguyên. Lưu ý rằng việc giải thích về các hệ số

độ dốc trong hàm sản xuất dạng log - tuyến tính và các hệ số độ dốc trong hàm

sản xuất dạng tuyến tính là khác nhau.

Mô hình nào tốt hơn, mô hình tuyến tính hay mô hình log - tuyến tính? Không

may, ta không thể so sánh hai mô hình này một cách trực tiếp, vì biến phụ thuộc

trong hai mô hình này khác nhau. Ta cũng không thể so sánh các giá trị R2 của

hai mô hình, bởi vì để so sánh các giá trị R2 của bất kỳ hai mô hình nào, biến

phụ thuộc phải giống nhau trong hai mô hình. Ở mục 2.8, ta sẽ thấy làm sao để

có thể so sánh giữa các mô hình tuyến tính và log - tuyến tính.

2.2 Kiểm định độ chuẩn xác của các ràng buộc tuyến tính

Hàm sản xuất Cobb-Douglas dạng log-tuyến tính phù hợp với dữ liệu sản xuất

cho thấy rằng tổng các hệ số co giãn của sản lượng theo lao động và của sản

lượng theo vốn là 0.9896, xấp xỉ bằng 1. Con số này có thể nói lên rằng ngành

công nghiệp sản xuất của Mỹ có hiệu suất không đổi theo quy mô. Làm sao ta

có thể kiểm định giả thuyết này.

Nếu thức sự B1 + B2 = 1, đó là một ví dụ của một ràng buộc tuyến tính (linear

restriction), một cách kiểm định giả thuyết hiệu suất không đổi theo quy

mô là đưa ràng buộc này một các trực tiếp vào thủ tục ước lượng. Để thấy điều

này được thực hiện như thế nào, ta có thể viết:

B2= 1 - B3 (2.7)7

7 Chúng ta cũng có thể thể hiện ràng buộc tuyến tính như sau: B3 = 1 – B2.

Vì thế, chúng ta có thể viết hàm sản xuất Cobb-Douglas dạng log-tuyến tính

như sau:

lnQi = A + (1 – B3)lnLi + B3lnKi + ui (2.8)

Gom các số hạng lại, chúng ta có thể viết phương trình (2.8) như sau:

lnQi - lnLi = A + B3(lnKi - lnLi) + ui (2.9)

Sử dụng các tính chất của logarít, chúng ta có thể viết phương trình này như

ln(Qi / Li) = A + B3ln(Ki / Li) + ui (2.10)

Trong đó (Qi / Li) là tỷ số sản lượng/lao động, hoặc năng suất lao động, và

(Ki/Li) là tỷ số vốn/lao động, hai trong số những tỷ số quan trọng của tăng trưởng

và phát triển kinh tế.

Diễn đạt bằng lời, phương trình (2.10) phát biểu rằng năng suất lao động là một

hàm của tỷ số vốn/lao động. Chúng ta gọi phương trình (2.10) là mô hình hồi

quy bị giới hạn (RS), và phương trình gốc (2.10) là mô hình hồi quy không bị

giới hạn (URS) vì nhiều lý do hiễn nhiên.

Một khi chúng ta ước lượng phương trình (2.10) bằng OLS, chúng ta có thể có

được giá trị ước lượng của B3, từ đó ta có thể dễ dàng có được giá trị của

B2 thông qua ràng buộc tuyến tính (B2 + B3 = 1). Làm sao chúng ta có thể quyết

định được ràng buộc này là chuẩn xác? Để trả lời câu hỏi này, trước hết chúng

ta trình bày kết quả hồi quy dựa theo phương trình (2.10): Bảng 2.4.

8 Lưu ý rằng ln XY = ln X + ln Y; ln(X / Y) = ln X – ln Y; ln Xk = k ln X (với k là một hằng số), nhưng lưu ý rằng ln (X +

Y) ln X + ln Y.

Bảng 2.4: Hàm sản xuất Cobb-Douglas với ràng buộc tuyến tính.

. gen lnoutlab=ln(output/labor)

. gen lncaplab=ln(capital/labor)

Các kết quả này cho thấy rằng nếu tỷ số vốn/lao động tăng thêm 1%, thì năng

suất lao động tăng thêm khoảng 0.5%. Nói cách khác, hệ số co giãn của năng

suất lao động theo tỷ số của vốn/lao động là 0.5, và hệ số co giãn này có ý

nghĩa rất cao. Lưu ý là R2 khoảng 0.38 thì không thể so sánh một cách trực

tiếp với giá trị R2 ở Bảng 2.2 bởi vì biến phụ thuộc ở hai mô hình là khác nhau.

Để kiểm định độ chuẩn xác của ràng buộc tuyến tính, trước hết chúng ta cần

định nghĩa:

• RSSR = residual sum of squares from the restricted regression, Eq.(2.10)

[tổng bình phương phần dư từ hồi quy bị ràng buộc, phương trình (2.10)].

• RSSUR = residual sum of squares from the unrestricted regression,

Eq.(2.4) [tổng bình phương phần dư từ hồi quy không bị ràng buộc,

phương trình (2.4)].

• m = number of linear restrictions [số ràng buộc tuyến tính, là 1 trong ví

dụ hiện tại].

• k = number of parameters in the unrestricted regression [số tham số trong

mô hình hồi quy không bị giới hạn, là 3 trong ví dụ hiện tại].

• n = number of observations [số quan sát, là 51 trong ví dụ hiện tại].

Bây giờ để kiểm định độ chuẩn xác của ràng buộc tuyến tính, ta sử dụng một

biến thể của thống kê F đã được thảo luận ở Chương 19:

(RSSR− RSSUR)

mRSSUR(n−k)

~ Fm, (n-k) (2.11)

theo phân phối xác suất F, trong đó m và (n - k) là các bậc tự do của tử và mẫu.

Cần lưu ý rằng RSSR không bao giờ bé hơn RSSUR, cho nên tỷ số F luôn luôn

không âm.

9 Để biết thêm chi tiết, xem Gujarati/Porter, pp. 243 – 6.

Như thường lệ, nếu giá trị F tính toán lớn hơn giá trị F phê phán (tra bảng) tại

mức ý nghĩa được chọn và bậc tự do thích hợp, chúng ta bác bỏ giả thuyết

không; ngược lại, ta không thể bác bỏ giả thuyết không.

Từ Bảng 2.2, ta có RSSUR = 3.4155 và từ Bảng 2.4, ta có RSSR = 3.4255.

Chúng ta biết rằng m = 1 và n = 51. Thay các giá trị này vào phương trình (2.11),

chúng ta sẽ thấy rằng giá trị F tính toán khoảng 0.142. Với bậc tự do của tử là

1 bậc tự do của mẫu là 48, giá trị F này không có ý nghĩa thống

kê [=F.INV(95%,1,48) = 4.0427]; thực vậy, giá trị xác suất p để có giá trị F như

thế (tức mức ý nghĩa chính xác) là khoảng 0.29 [=F.DIST(0.142,1,48,TRUE) =

0.29]. Vì thế, kết luận trong ví dụ hiện tại là hàm sản xuất Cobb-Douglas trong

Bảng 2.2 có thể thể hiện hiệu suất không đổi theo quy mô. Cho nên không có

rủi ro gì khi sử dụng hàm sản xuất như được cho ở phương trình (2.10). Nhưng

cần nhấn mạnh rằng thủ tục kiểm định F được trình bày ở trên chỉ có giá trị (hiệu

lực) đối với ràng buộc tuyến tính; thủ tục này không có hiệu lực đối với các ràng

buộc phi tuyến, chẳng hạn như B2B3 = 1.

HƯỚNG DẪN KIỂM ĐỊNH RÀNG BUỘC TUYẾN TÍNH TRÊN EVIEWS VÀ STATA

2.3 Các mô hình dạng log-lin hoặc các mô hình tăng trưởng

Một chủ đề rất được quan tâm của các nhà kinh tế, chính phủ, giới kinh doanh,

và những nhà làm chính sách là tốc độ tăng trưởng của các biến kinh tế chủ

chốt như GDP, cung tiền, dân số, việc làm, năng suất, và lãi suất.

Để biết tốc độ tăng trưởng của một biến kinh tế có thể được đo như thế

nào, chúng ta tiến hành như sau. Cụ thể, giả sử chúng ta muốn đo tốc độ tăng

trưởng của GDP thực (tức là GDP được điều chỉnh lạm phát) của

Mỹ giai đoạn 1960-2007. Vì mục đích này, giả sử chúng ta sử dụng mô hình

sau đây:

RGDPt = RGDP1960(1 + r)t (2.12)

Trong đó, RGDP là GDP thực, r tốc độ tăng trưởng, và t là thời gian được đo

theo thứ tự thời gian (tức từ 1, 2, …, T).

Phương trình (2.12) là công thức lãi kép (compound interest formula) rất phổ

biến trong tài chính căn bản. Lấy log tự nhiên hai vế của phương trình (2.12),

chúng ta có:

ln RGDPt = ln RGDP1960 + t ln(1 + r) (2.13)

Bây giờ, đặt B1 = ln RGDP1960 và B2 = ln (1 + r), chúng ta có thể viết phương

trình (2.13) như sau:

ln RGDPt = B1 + B2t (2.14)

Đưa thêm hạng nhiễu ut vào phương trình (2.14), chúng ta có mô hình hồi quy

sau đây10:

ln RGDPt = B1 + B2t + ut (2.15)

Phương trình (2.15) giống bất kỳ một mô hình hồi quy nào khác; điểm khác biệt

duy nhất là ở đây biến giải thích là "thời gian", biến này có các giá trị 1, 2, ...,

Mô hình (2.15) được gọi là mô hình bán log (semilog) bởi vì chỉ một biến (trong

trường hợp này là biến phụ thuộc) xuất hiện ở dạng log, trong khi đó biến giải

thích (ở đây là biến thời gian) ở dạng tuyến tính. Vì các mục đích mô tả, ta gọi

phương trình (2.15) là mô hình log-lin (log-lin model).

Phương trình (2.15) có thể được ước lượng theo thủ tục OLS thông thường.

Nhưng trước khi chúng ta trình bày kết quả hồi quy, cần lưu ý rằng hệ số độ dốc

B2 trong phương trình (2.14) đo lường một sự thay đổi tỷ lệ hay thay đổi tương

10 Chúng ta đưa hạng nhiễu để tính đến khả năng công thức lãi kép có thể không đúng chính xác.

đối trong biến phụ thuộc theo một sự thay đổi tuyệt đối cho trước trong giá trị

của biến giải thích. Đó là,

(thay đổi tương đối trong biến phụ thuộc)

B2 = ------------------------------------------------------- (2.16)11

(thay đổi tuyệt đối trong biến giải thích)

Trong thực tế, ta nhân B2 cho 100 để tính thay đổi phần trăm, hoặc tốc độ tăng

trưởng (growth rate); 100 nhân B2 cũng được biết như là hệ số bán co

giãn (semi-elasticity) của biến phụ thuộc theo biến giải thích.

Kết quả hồi quy

Sử dụng dữ liệu GDP thực của USA giai đoạn 1960-2007, chúng ta thu được

kết quả hồi quy như trong Bảng 2.6. Tập tin Table 2.5 có thể được tìm thấy trên

website của cuốn sách.

Bảng 2.6: Tốc độ tăng trưởng GDP thực của Mỹ, 1960-2007.

11 Các bạn đọc quen với giải tích có thể lấy sai phân (differentiate) phương trình (2.15) theo t, để có: d(lnRGDP) / dt = B2. Nhưng d(lnRGDP) / dt = (1/RGDP) x (d(RGDP) / dt, đó là một thay đổi tương đối trong RGDP.

Giải thích các kết quả

Các kết quả này cho thấy rằng trong giai đoạn 1960-2007, GDP thực của Mỹ đã

tăng với tốc độ 3.15% một năm. Tốc độ tăng trưởng này có ý nghĩa thống kê, vì

giá trị t ước lượng (tính toán) khoảng 90.82 là có ý nghĩa rất cao.

Còn giải thích hệ số cắt như thế nào? Nếu em lấy anti-log của 7.8756, chúng

ta có anti-log(7.8756) tức exp(7.8756 )= 2632.27, đó là giá trị bắt đầu của chuỗi

GDP thực, nghĩa là, giá trị vào đầu năm 1960, điểm khởi đầu của chúng ta. Giá

trị thực của RGDP năm 1960 là khoảng 2501.8 tỷ đô la.

Hình 2.1 là đồ thị phân tán (scatter diagram) của log của GDP thực và thời gian

và đường hồi quy phù hợp (fitted regression line).

Lưu ý về mặt kỹ thuật: Hệ số B2 cho biết tốc độ tăng trưởng tức thời (tại một thời

điểm, instantaneous rate of growth) chứ không phải là tốc độ tăng trưởng kép

(qua một giai đoạn, compound rate of growth), r. Nhưng cũng dễ dàng tính được

tốc độ tăng trưởng kép, lưu ý rằng B2 = ln(1 + r). Vì thế, r = anti-log(B2) - 1. Bây

giờ lấy anti-log (B2) = 1.03199. Vì thế, tốc độ tăng trưởng kép là 0.03199 hoặc

khoảng 3.2%, hơi cao hơn so với tốc độ tăng trưởng tức thời khoảng 3.1%. Khác

biệt này là do việc tính kép.

0 2 4 6 8 10 13 16 19 22 25 28 31 34 37 40 43 46 49

Hình 2.1: Log của GDP thực, 1960 – 2007.

Mô hình Xu thế tuyến tính

Giả sử rằng, thay vì ước lượng mô hình tăng trưởng (2.14), chúng ta ước lượng

mô hình sau đây:

RGDPt = A1 + A2time + ut (2.17)

Đây được gọi là mô hình xu thế tuyến tính và biến thời gian được gọi là biến xu

thế. Hệ số độ dốc A2 trong mô hình này cho biết thay đổi tuyệt đối (chứ không

phải thay đổi tương đối) trong RGDP trên một đơn vị thời gian. Nếu A2 dương,

thì chúng ta có xu thế tăng trong RGDP, nhưng nếu âm, thì chúng ta có xu thế

giảm trong RGDP hay bất kỳ biến phụ thuộc nào.

Sử dụng dữ liệu trong Table 2.5, chúng ta thu được kết quả hồi quy như trong

Bảng 2.7.

Bảng 2.7: Xu thế trong GDP thực của Mỹ, 1960-2007.

Các kết quả cho thấy rằng trong giai đoạn 1960-2007, GDP thực của Mỹ tăng

khoảng 187 tỷ đô lamột năm, cho thấy xu thế tăng - phát hiện này không có gì

đáng ngạc nhiên.

Việc chọn lựa giữa mô hình tăng trưởng như phương trình (2.15) và mô hình xu

thế tuyến tính như phương trình (2.17) là tùy vào người nghiên cứu, mặc dù để

so sánh RGDP giữa các vùng hoặc các nước thì mô hình tăng trưởng có lẽ thích

hợp hơn. Lưu ý rằng vì các biến phụ thuộc trong mô hình log-lin và mô hình xu

thế tuyến tính là khác nhau, nên sẽ không phù hợp nếu so sánh hai giá trị R2

để xác định nên chọn mô hình nào. Nhưng chúng ta sẽ bàn vấn đề này kỹ hơn

ở Mục 2.7.

Vì ta đang sử dụng dữ liệu chuỗi thời gian, nên thống kê Durbin-Watson, một

thước đo sự tự tương quan trong hạng nhiễu, là một thống kê quan trọng. Trong

Chương 6 về tự tương quan ta sẽ biết các giải thích thống kê này như thế nào.

Còn bây giờ chỉ cần biết rằng nếu không có tự tương quan thì giá trị của thống

kê Durbin-Watson khoảng bằng 212; giá trị này càng gần bằng 0, thì càng có

bằng chứng của sự tự tương quan.

2.4 Lin-log models

Trong mô hình log-lin hoặc mô hình tăng trưởng, chúng ta quan tâm đến việc đi

tìm tăng trưởng phần trăm trong biến phụ thuộc theo một thay đổi đơn vị trong

biến giải thích. Còn việc đo lường thay đổi tuyệt đối trong biến phụ thuộc theo

một thay đổi phần trăm trong biến giải thích thì sao? Nếu đó là mục tiêu phân

tích, thì chúng ta có thể ước lượng mô hình sau đây:

Yi = B1 + B2lnXi + ui (2.18)

Chúng ta gọi phương trình (2.18) là mô hình lin-log, vì nhiều lý do.

Hệ số độ dốc B2 của mô hình này cho chúng ta biết điều gì? Như chúng ta biết,

hệ số độ dốc cho biết sự thay đổi trong Y theo một sự thay đổi đơn vị trong biến

giải thích. Vì thế,

12 Như chúng ta sẽ thấy ở chương 6, thống kê này dựa trên một số giả định.

(thay đổi tuyệt đối trong biến Y)

B2 = -------------------------------------------

(thay đổi trong biến lnX)

(thay đổi tuyệt đối trong biến Y)

= ----------------------------------------------- (2.19)

(thay đổi tương đối trong biến X)

Nhớ rằng một thay đổi trong log của một con số là một thay đổi tương đối, hoặc

một thay đổi phần trăm, sau khi nhân với 100.

Đặt là một sự thay đổi nhỏ, chúng ta có thể viết phương trình (2.19) như sau:

B2 = Y

X/X (2.20)

Hoặc

Y = B2(X/X) (2.21)

Phương trình (2.21) phát biểu rằng thay đổi tuyệt đối trong Y (= Y) bằng độ

dốc nhân với thay đổi tương đối trong X. Vì vậy, nếu (X/X) thay đổi 0.01 đơn

vị (hoặc 1%), thì thay đổi tuyệt đối của Y là 0.01(B2). Nếu trong một ứng dụng

chúng ta có B2 = 200, thì thay đổi tuyệt đối trong Y là 0.01(200) = 2.

Vì thế, khi chúng ta ước lượng một phương trình như phương trình (2.18), đừng

quên nhân giá trị của hệ số độ dốc ước lượng với 0.01 hoặc (lấy b2 chia cho

100). Nếu bạn không theo quy trình này, bạn có thể rút ra các kết luận sai từ

kết quả hồi quy.

Mô hình lin-log đã được sử dụng trong các hàm chi tiêu Engel, tên mô hình

được đặt theo tên nhà thống kê người Đức Ernst Engel (1821 - 1896). Engel

cho rằng “tổng chi tiêu cho lương thực có xu hướng tăng theo cấp số cộng khi

tổng tổng chi tiêu tăng tỷ lệ cấp số nhân13. Một cách khác để thể hiện điều này

là tỷ phần của chi tiêu cho lương thực giảm khi tổng chi tiêu tăng.

Để làm rõ vấn đề này, Table 2.8 là dữ liệu về thực phẩm và nước giải khát

không có nồng độ cồn được tiêu dùng tại nhà (Expfood) và tổng chi tiêu của hộ

gia đình (Expend), cả hai tính bằng đôla năm 1995 của 869 hộ gia đình Mỹ14.

Bảng này có thể được tìm thấy trên trang Web của cuốn sách.

Kết quả hồi quy về tỷ phần chi tiêu cho lương thực (SFDHO) trong tổng chi tiêu

được cho ở Bảng 2.9.

Bảng 2.9: Mô hình lin-log về chi tiêu cho lương thực

13 Câu này trích từ H. Working (1943), Statistical laws of family expenditure, Journal of American Statistical Association, vol. 38, pp. 43-56. 14 Đây là một mẫu ngẫu nhiên từ dữ liệu thu thập khoảng 5000 hộ gia đình trong điều tra bằng phỏng vấn theo quý về chi tiêu của người tiêu dùng được thực hiện bởi Phòng lao động, Cục thống kê Mỹ. Dữ liệu được sử dụng ở đây đã được thảo luận trong Christopher Dougherty, Introduction to Econometrics, 3rd edn, Oxford University Press.

Tất cả các hệ số ước lượng đều có ý nghĩa thống kê cao. Giải thích hệ số độ

dốc khoảng – 0.08 là nếu tổng chi tiêu tăng 1%, thì trung bình, tỷ phần chi tiêu

cho lương thực và nước giải khát không có độ cồn giảm khoảng 0.0008 đơn vị,

như vậy kết quả này ủng hộ giả thuyết của Engel. Điều này có thể được thấy rõ

hơn trong Hình 2.2. (Lưu ý: Đừng quên chia hệ số độ dốc cho 100). Nói cách

khác, hệ số độ dốc có thể được giải thích như sau: Nếu tổng chi tiêu tăng 100%,

thì trung bình, tỷ phần của chi tiêu cho lương thực và nước giải khát không có

độ cồn giảm khoảng 0.08 đơn vị.

Hướng dẫn vẽ đồ thị 2.2 trên Eviews:

Quick/Graph … nhập 2 biến LOG(EXPEND) SFDHO

8.0 8.3 8.6 8.9 9.2 9.5 9.8 10.2 10.6 11.0 11.4 11.8

LOG(EXPEND)

Hình 2.2: SFDHO và log của chi tiêu.

Mặc dù chúng ta xác định một mô hình lin-log phù hợp với dữ liệu, Hình 2.2 cho

thấy mối quan hệ giữa SFDHO và log(EXPEND) dường như dạng phi tuyến. Có

nhiều phương pháp thể hiện các mối quan hệ phi tuyến giữa các biến, như các

mô hình nghịch đảo (reciprocal) hoặc các mô hình hồi quy đa thức (polynomial

regression models), sẽ được thảo luận ngay sau đây.

2.5 Các mô hình nghịch đảo

Đôi khi chúng ta gặp phải các tình huống ở đó mối quan hệ giữa biến phụ thuộc

và (các) biến giải thích dạng nghịch đảo, như trong mô hình hồi quy sau đây:

Yi = B1 + B2(1Xi

) + ui (2.22)

Mô hình này là phi tuyến ở X bới vì biến này được đưa vào mô hình một cách

nghịch đảo, nhưng vẫn là mô hình hồi quy tuyến tính bởi vì các tham số, Bs, là

tuyến tính.

Một số tính chất của mô hình này như sau. Khi X tăng vô cùng, thì số hạng

B2(1/Xi) dần về 0 (lưu ý: B2 là một hằng số) và Y fa62n về giá trị giới hạn hoặc

giá trị tiệm cận B1. Hệ số dốc của phương trình (2.22) được cho bởi công thức

sau đây:

dXi= −B2 (

Vì thế, nếu B2 dương, thì độ dốc âm, và nếu B2 âm, thì độ dốc dương.

Ví dụ minh họa: Xem xét lại chi tiêu cho lương thực

Trong phần trước, chúng ta xác định mô hình phù hợp cho mối quan hệ giữa

chi tiêu cho lương thực và tổng chi tiêu là mô hình dạng lin-log. Chúng ta hãy

xem liệu mô hình nghịch đảo cũng có thể phù hợp với dữ liệu này không. Vì vậy

chúng ta ước lượng (Bảng 2.10):

SFDHOi = B1 + B2(1

EXPENDi) + ui (2.23)

Bảng 2.10: Mô hình nghịch đảo về chi tiêu cho lương thực.

Giải thích kết quả

Cả hai hệ số hồi quy đều có ý nghĩa thống kê cao, vì các giá trị xác suất p thực

tế bằng 0. Giá trị của hệ số cắt khoảng 0.08 cho biết rằng nếu tổng chi tiêu tăng

lên vô cùng, thì tỷ phần chi tiêu cho lương thực và nước uống không có độ cồn

cuối cùng sẽ tiệm cận về mức 8%. Hệ số độ dốc B2 dương, cho biết rằng tỷ lệ

thay đổi của SFDHO theo tổng chi tiêu sẽ âm. Điều này có thể thấy rõ ràng hơn

trên Hình 2.3.

Hướng dẫn vẽ trên Eviews: Quick/Graph … nhập tên biến theo thứ tự EXPEND

SFDHO, …, chọn Scatter, sau đó định dạng lại.

0 12,000 32,000 52,000 72,000 92,000 112,000 136,000

EXPEND

Hình 2.3: Tỷ phần chi tiêu cho lương thực trong tổng chi tiêu.

Nếu bạn so sánh Hình 2.2 với Hình 2.3, bạn sẽ thấy rằng chúng tương tự nhau

về mặt hình dáng. Câu hỏi thực tế là: mô hình nào tốt hơn – lin-log hay nghịch

đảo?

Đây là một vấn đề phổ biến trong nghiên cứu thực nghiệm – tức là lực chọn mô

hình phù hợp. Vì cả hai mô hình phù hợp với dữ liệu một cách rất hợp lý, nên

rất khó để chúng ta chọn lựa giữa hai mô hình này. Trên cơ sở tiêu chí R2, mô

hình lin-log cho chúng ta giá trị R2 hơi cao hơn, nhưng khác biệt trong hai giá trị

R2 không lớn lắm. Nhân tiện, hãy lưu ý rằng chúng ta có thể so sánh hai giá trị

R2 bởi vì biến phụ thuộc trong hai mô hình là giống nhau.

2.6 Các mô hình hồi quy đa thức

Chúng ta hãy xem xét lại mô hình tuyến tính đã được xem xét ở phương trình

(2.17), trong đó chúng ta hồi quy GDP thực (RGDP) theo biến xu thế, time. Bây

giờ xem xét mô hình sau đây:

RGDPt = A1 + A2time + A3time2 + ut (2.24)

Phương trình (2.24) là một ví dụ của một hàm bậc hai (quadratic function), hoặc

nói chung hơn, một hàm đa thức bậc hai (second-degree polynomial) theo biến

time. Nếu chúng ta đưa thêm time3 vào mô hình, chúng ta sẽ có mô hình đa

thức bậc ba, nghĩa là, lũy thừa cao nhất (highest power) của biến giải thích thể

hiện bậc của mô hình đa thức.

Điểm đầu tiên cần lưu ý về phương trình (2.24) là đó là một mô hình hồi quy

tuyến tính, nghĩa là, tuyến tính ở các tham số, mặc dù biến time đưa vào mô

hình ở cả hai dạng tuyến tính và bậc hai. Thứ hai, các biến time và time2 có

quan hệ hàm số và sẽ tương quan với nhau rất cao. Điều này có gây ra vấn đề

đa cộng tuyến hay không? [Nghĩa là sẽ phá vỡ một trong số các giả định của

mô hình hồi quy tuyến tính cổ điển là không có các mối quan hệ tuyến tính

chính xác (exact linear relations) nào giữa các biến giải thích]. Không, bởi vì

time3 là một hàm phi tuyến của time.

Sử dụng dữ liệu về RGDP, chúng ta có kết quả hồi quy như trong Bảng 2.11.

Thứ nhất, lưu ý rằng tất cả các hệ số ước lượng đều có ý nghĩa thống kê, giả

định rằng các giả định thông thường của các mô hình hồi quy tuyến tính cổ điển

đều thỏa mãn. Chúng ta giải thích các kết quả này như thế nào? Trong phương

trình (2.17) chỉ với biết time là biến giải thích, hệ số của biến time là khoảng

186.99 (xem bảng 2.7), cho biết rằng RGDP gia tăng bởi một lượng không đổi

186.99 tỷ đôla một năm.

Bảng 2.11: Mô hình đa thức về GDP của Mỹ, 1960-2007.

Nhưng đối với mô hình đa thức bậc hai, RGDP tăng với một tốc độ tăng dần bởi

vì cả hai hệ số của time và time2 đều dương. Để thấy điều này một cách khác,

đối với mô hình bậc hai được cho ở phương trình (2.24), tốc độ thay đổi của

RGDP được tính như sau:

d(RGDP) / d(time) = A2 + 2A3time (2.25)

Tốc độ thay đổi này dương bởi vì cả A2 và A3 đều dương.

Lưu ý: Vế trái của phương trình này là đạo hàm của RGDP theo biến time.

Sử dụng kết quả trong Bảng 2.11, chúng ta có:

d(RGDP) / d(time) = 68.53 + 2(2.42)time (2.26)

= 68.53 + 4.84time

Như phương trình (2.26) cho thấy, tỷ lệ thay đổi của RGDP phụ thuộc vào thời

gian tại đó tỷ lệ thay đổi được tính. Đây là khác biệt lớn so với mô hình xu thế

tuyến tính, phương trình (2.17), cho biết một tỷ lệ thay đổi cố định khoảng 187

tỷ đôla một năm15.

Mô hình log-lin với biến xu thế bậc hai

Thay vì ước lượng phương trình (2.24) giả sử rằng chúng ta ước lượng mô hình

sau đây:

ln RGDPt = B1 + B2t + B3t3 + ut (2.27)

Kết quả hồi quy của mô hình này được cho ở Bảng 2.12.

Bảng 2.12: Mô hình đa thức của log GDP của Mỹ, 1960-2007.

15 Nếu bạn lấy đạo hàm bậc hai phương trình (2.25) theo thời gian, bạn sẽ có được giá trị 4.84. Vì thế nó là tỷ lệ thay đổi của tỷ lệ thay đổi là cố định quan thời gian. (Lưu ý đạo hàm bậc hai hàm ý rằng RGDP tăng với một tốc độ tăng dần).

Điều thú vị cần lưu ý rằng trong Bảng 2.11 các hệ số của biến xu thế và xu thế

bình phương đều dương, trong khi đó trong Bảng 2.12 hệ số biến xu thế dương

nhưng hệ số của biến xu thế bình phương âm. Điều này cho thấy rằng mặc dù

tỷ lệ tăng trưởng của RGDP là dương, nhưng tăng với tốc độ giảm dần. Để thấy

rõ hơn, lấy đạo hàm phương trình (2.27) theo thời gian, chúng ta có:

d(ln RGDP) / d(t) = B2 + 2B3t (2.28)16

Nghĩa là,

𝑅𝐺𝐷𝑃

𝑑RGDP

𝑡= 𝐵2 + 2𝐵3𝑡 (2.29)

Nhưng vế trái của phương trình này là tỷ lệ tăng trưởng của RGDP.

Tỷ lệ tăng trưởng của RGDP = B2 + 2B3t (2.30)

= 0.0365 – 0.0002t

Như phương trình (2.30) cho thấy, tỷ lệ tăng trưởng của RGDP giảm với mức

0.0002 một năm.

Lưu ý rằng trong phương trình (2.24) chúng ta đang đo lường tỷ lệ thay đổi của

RGDP, nhưng trong phương trình (2.27) chúng ta đang đo lường tỷ lệ tăng

trưởng RGDP. Có nhiều thước đo khác nhau.

2.7 Lực chọn dạng hàm

Một vấn đề thực tế trong việc thực hiện nghiên cứu thực nghiệm là quyết định

dạng hàm của mô hình hồi quy phù hợp trong một tình huống nhất định. Trong

mô hình hồi quy hai biến, sự lựa chọn này thường không khó bởi vì chúng ta

luôn luôn có thể vẽ đồ thị của biến phụ thuộc và biến giải thích, và quyết định

16 Nhớ lại rằng d lnY / Dx = (1/Y)Dy / dX, đó là một thay đổi tương đối trong Y. Nếu nó được nhân với 100, thì đó sẽ là sự thay đổi phần trăm của Y hoặc tỷ lệ tăng trưởng của Y. Điểm cần lưu ý là sự thay đổi trong log của một biến là một sự thay đổi tương đối.

dạng hàm theo cảm nhận trực quan. Nhưng đối với các mô hình hồi quy bội, thì

sự lựa chọn này không còn dễ dàng nữa, vì rất khó để vẽ một đồ thị đa chiều.

Vì thế, trong thực tế, chúng ta cần biết các tính chất của các mô hình mà chúng

ta đã thảo luận ở chương này. Một cách để hoàn thành việc lựa chọn dạng hàm

là phải xem xét các hệ số độ dốc và hệ số co giãn của các mô hình khác nhau.

Một tóm tắt được trình bày ở Bảng 2.13.

Bảng 2.13: Tóm tắt các dạng hàm.

Nếu có nhiều hơn một biến giải thích, bạn có thể tính các hệ số độ dốc và hệ

số co giãn riêng phần, giữ nguyên các biến khác trong mô hình17.

[Diễn giãi: Trong thực tế, một mô hình hồi quy thường là kết hợp của nhiều dạng

hàm tùy vào mối quan hệ giữa biến phụ thuộc và từ biến giải thích].

17 Ví dụ, đối với mô hình Y = B1 + B2X + B3X2, hệ số độ dốc là dy / dx = B2 + 2B3X và hệ số co giãn là (dy / dx)(X / Y) = (B2 + 2B3X)(X / Y) và hệ số co giãn này phụ thuộc vào các giá trị của X và Y.

2.8 So sánh các mô hình tuyến tính và phi tuyến

Một vấn đề thường gặp trong nghiên cứu là lựa chọn giữa các mô hình tuyến

tính và log-tuyến tính18. Xem xét thảo luận của chúng ta về hàm sản xuất cho

nền kinh tế Mỹ. Phương trình (2.4) là một ví dụ về hàm sản xuất log-tuyến tính,

hàm sản xuất Cobb-Douglas, trong khi phương trình (2.6) là một ví dụ về hàm

sản xuất tuyến tính. Mô hình nào tốt hơn đối với dữ liệu trong Table 2.1? Chúng

ta đã trình bày kết quả hồi quy của các mô hình này trong các Bảng 2.2 và 2.3.

Cả hai mô hình rất phù hợp với dữ liệu. Nhưng chúng ta không thể so sánh một

cách trực tiếp giữa các mô hình, bởi vì các biến phụ thuộc trong hai mô hình là

khác nhau. Nhưng một biến đổi đơn giản về biến phụ thuộc có thể làm cho hai

mô hình có thể so sánh được với nhau. Chúng ta thực hiện theo các bước sau

đây:

• Bước 1: Tính trung bình hình học (geometric mean, GM) của biến phụ

thuộc; gọi nó là Q*19. Đối với dữ liệu trong Bảng 2.1, GM của biến sản

lượng là e16.941139 = 22842628. [Eviews: @gmean(tên biến)].

• Bước 2: Chi Qi cho Q* để có: (Qi / Q*) = Q𝑖.

• Bước 3: Ước lượng phương trình (2.4) sử dụng Q𝑖 thay cho Qi như là biến

phụ thuộc (tức là, sử dụ ln Q𝑖 làm biến phụ thuộc).

• Bước 4: Ước lượng phương trình (2.6) sử dụng Q𝑖 làm biến phụ thuộc

thay vì Qi.

Các biến phụ thuộc được chuyển đổi vì thế bây giờ có thể so sánh được với

nhau. Chạy các mô hình hồi quy với dữ liệu chuyển đổi, thu được tổng bình

phương phần dư (RSS) (ví dụ RSS1 cho mô hình tuyến tính và RSS2 cho mô

hình log-tuyến tính) và chọn mô hình có RSS thấp hơn. Để tiết kệm không gian,

18 Trong mô hình log-tuyến tính, biến phụ thuộc ở lạng log, nhưng biến giải thích có thể ở dạng log hoặc dạng tuyến tính. 19 Trung bình hình học của Y1 và Y2 là (Y1Y2)1/2; và GM của Y1, Y2, và Y3 là (Y1Y2Y3)1/3; và …

chúng ta sẽ không trình bày lại kết quả hồi quy này, mà chỉ trình bày các thống

kê sau đây:

Mô hình log-tuyến tính 3.4155

Mô hình tuyến tính 3.6519

Vì RSS của mô hình log-tuyến tính thấp hơn, nên chúng ta có thể chọn mô hình

này thay vì mô hình tuyến tính, mặc dù cả hai RSS khá gần nhau. Nhưng chúng

ta có sẵn một kiểm định chính thức hơn.

Nếu giả thuyết H0 cho rằng cả hai mô hình phù hợp như nhau với dữ liệu, chúng

ta có thể tính20:

Trong đó, RSS1 là RSS từ mô hình tuyến tính và RSS2 là RSS từ mô hình log-

tuyến tính. Nếu giá trị lamda tính toán lớn hơn giá trị Chi bình phương phên

phán với 1 bậc tự do, chúng ta có thể bác bỏ giá thuyết H0 và kết luận rằng hàm

sản xuất log-tuyến tính là mô hình tốt hơn. Tuy nhiên, nếu giá trị lamda tính toán

nhỏ hơn giá trị Chi bình phương phê phán, chúng ta không thể bác bỏ giả thuyết

H0, và như vậy cả hai mô hình phù hợp như nhau với dữ liệu.

Đối với ví dụ của chúng ta, giá trị lamda tính toán = 74.2827. Giá trị Chi bình

phương phê phán ở mức ý nghĩa 5% cho 1 bậc tự do là 3.841. Vì giá trị Chi bình

phương tính toán là 74.2827 lớn hơn nhiêu so với giá trị Chi bình phương phên

phán, nên chúng ta kết luận rằng mô hình log-tuyến tính thể hiện tốt hơn mô

hình tuyến tính21.

Vì mô hình log-tuyến tính dễ dàng giải thích theo các hệ số co giãn của lao

động và vốn, và hiệu suất theo quy mô, nên chúng ta có thể chọn mô hình log-

tuyến tính trong các ứng dụng thực tế.

20 Xem Gary Koop, Introduction to Econometrics, John Wiley & Sons Ltd, England, 2008, pp. 114 – 15. 21 Nếu RSS2 > RSS1, thì chúng ta để RSS2 trên tử số của công thức (2.26) và để RSS1 dưới mẫu. Giả thuyết H0 ở đây là cả hai mô hình đều thể hiện tốt như nhau. Nếu giả thuyết này bị bác bỏ, thì mô hình tuyến tính có thể được thích hơn mô hình log-tuyến tính.

2.9 Hồi quy với các biến chuẩn hóa

Trong nhiều ví dụ khác nhau mà chúng ta đã thảo luận, thì biến phụ thuộc và

các biến giải thích không nhất thiết phải được thể hiện theo cùng đơn vị đo

lường. Vì thế, hàm sản xuất Cobb-Douglas đã được thảo luận thì sản lượng, lao

động và vốn được đo lường bằng các đơn vị khác nhau. Điều này ảnh hưởng

đến việc giải thích các hệ số hồi hồi quy, bởi vì độ lớn của các hệ số hồi quy

(riêng) phụ thuộc vào đơn vị đo lường của biến đó.

Nhưng vấn đề này có thể tránh được nếu chúng ta thể hiện tất cả các biến dưới

dạng chuẩn hóa (standardized). Dưới dạng chuẩn hóa, chúng ta thể hiện giá trị

của mỗi biến như độ lệch so với trung bình và chia độ lệch đó cho độ lệch chuẩn

của biến đó, chẳng hạn như sau đây:

Trong đó, SY và SX là các độ lệch chuẩn mẫu và Y ngang và X ngang là các

trung bình mẫu của Y và X. Y* và X* được gọi là các biến chuẩn hóa

(standardized variables).

Dễ dàng chứng minh rằng giá trị trung bình của một biến chuẩn hóa luôn luôn

bằng 0 và giá trị độ lệch chuẩn luôn luôn bằng 1, không cần biết các giá trị trung

bình và độ lệch chuẩn gốc của nó là bao nhiêu. Cũng rất thú vị để lưu ý rằng

các biến chuẩn hóa được gọi là các biến chứa các con số thuần túy (tức là

không có đơn vị, unit free numbers). Đây là bởi vì tử số và mẫu số của các biến

chuẩn hóa được đo lường bằng đơn vị đo lường giống nhau.

Nếu bạn chạy hồi quy sau đây:

Bạn sẽ thấy rằng b1* bằng 022.

Bảng 2.14: Hàm sản xuất tuyến tính sử dụng các biến chuẩn hóa.

22 Lưu ý rằng: b1* = Y − b2

∗ X∗, nhưng các giá trị trung bình của các biến chuẩn hóa đều bằng 0, nên b1* luôn bằng

Các hệ số hồi quy có dấu sao (starred regression coefficients) được gọi là các

hệ số beta (beta coefficients) hoặc các hệ số chuẩn hóa (standardized

coefficients), trong khi đó các hệ số hồi quy của các biến chưa chuẩn hóa được

gọi là các hệ số không chuẩn hóa (unstandardized coefficients).

Hệ số độ dốc trong hồi quy này được giải thích như sau: nếu biến giải thích

chuẩn hóa tăng lên một đơn vị độ lệch chuẩn, thì trung bình, biến phụ thuộc

chuẩn hóa tăng B2* đơn vị độ lệch chuẩn. Điểm cần nhớ là, không giống như

hồi quy OLS thông thường, chúng ta đo lường tác động của một biến giải thích

không theo đơn vị gốc trong đó X và Y được đo lường, mà theo các đơn vị độ

lệch chuẩn.

Nên nói thêm rằng nếu chúng ta có nhiều hơn một biến giải thích, thì chúng ta

có thể chuẩn hóa tất cả các biến giải thích. Để minh họa, chúng ta xem lại ví dụ

về hàm sản xuất của Mỹ đã được xem xét trước đây (xem Bảng 2.3) và ước

lượng lại bằng cách sử dụng các biến sản lượng, lao động và vốn chuẩn hóa.

Kết quả ước lượng được trình bày ở Bảng 2.14.

Như được kỳ vọng, hệ số cắt là bằng không. Hai biến chuẩn hóa đều có tác

động có ý nghĩ lên sản lượng (chuẩn hóa). Giải thích hệ số 0.4 như sau nếu

nhập lượng lao động tăng một đơn vị độ lệch chuẩn, thì giá trị trung bình của

sản lượng tăng thêm 0.4 độ lệch chuẩn, khi giữa nguyên các yếu tố khác. Giải

thích hệ số của vốn 0.6 là nếu nhập lượng vốn tăng thêm một đơn vị độ lệch

chuẩn, thì trung bình, sản lượng tăng thêm 0.6 đơn vị độ lệch chuẩn. Nói một

cách so sánh, thì vốn có tác động lên sản lượng nhiều hơn lao động. Các hệ số

số hồi quy trong Bảng 2.3, ngược lại, là các hệ số không chuẩn hóa.

Nếu bạn nhìn kết quả trong Bảng 2.3, bạn có thể nghĩ rằng lao động có tác

động lên sản lượng tương đối nhiều hơn so với vốn. Nhưng do lao động và vốn

được đo bằng các đơn vị đo lường khác nhau, nên kết luận như thế có thể sẽ

sai lầm. Nhưng trong hồi quy với các biến chuẩn hóa, chúng ta có thể dễ dàng

đánh giá tầm quan trọng tương đối của các biến giải thích khác nhau, bởi vì nhờ

chuẩn hóa mà chúng ta đặt tất cả các biến giải thích ở một vị trí ngang bằng

Nhưng lưu ý rằng dù chúng ta sử dụng các biến chuẩn hóa hay không chuẩn

hóa, thù các giá trị R2, t, và F vẫn giữ nguyên, vì thế không ảnh hưởng đến việc

suy diễn thống kê.

2.10 Các thước đo mức độ phù hợp

Nếu bạn nhìn vào các kết quả in ra từ máy tính khác nhau trong các bảng trước

đây, bạn sẽ thấy rằng có nhiều thước đo “mức độ phù hợp’’ của mô hình ước

lượng; đó là, mô hình giải thích sự biến thiên trong biến phụ thuộc tốt như thế

nào. Các thước đo này bao gồm: (1) hệ số xác định, R2; (2) R2 điều chỉnh,

thường được ký hiệu bằng R2; (3) tiêu chính thông tin Akaike; và (4) tiêu chí

thông tin Schwarz.

1. Thước đo R2

Như được lưu ý trước đây, thước đo này đo lường tỷ lệ biến thiên trong biến phụ

thuộc được giải thích bởi các biến giải thích. Giá trị của nó năm giữa 0 và 1. 0

cho biết hầu như không phù hợp và 1 là phù hợp hoàn hảo. R2 thường nằm giữa

hai giá trị này; càng gần 0 thì càng ít phù hợp; càng gần 1 thì càng phù hợp.

Một nhược điểm của thước đo này là khi càng đưa nhiều biến giải thích vào mô

hình thì chúng ta nói chung có thể làm tăng giá trị R2. Điều này là bởi vì R2 là

một hàm tăng theo số biến giải thích trong mô hình.

Mặc dù chúng ta định nghĩa R2 như tỷ số của ESS trên TSS, nhưng nó cũng có

thể được tính hệ số tương quan bình phương giữa giá trị Y thực tế và giá trị Y

ước lượng (tức Y) từ mô hình hồi quy, ở đây Y là biến phụ thuộc, nghĩa là:

Trong đó:

[Diễn giải: R2 chỉ dùng để so sánh giữa các mô hình có biến phụ thuộc giống

nhau. Nếu khác, thì chúng ta cần phải thực hiện như ở mục 2.8].

2. R2 điều chỉnh

Chúng ta cũng đã thảo luận R2 điều chỉnh (= R2). R2 điều chỉnh được sử dụng

để so sánh hai hoặc nhiều hơn hai mô hình có cùng biến phụ thuộc [Diễn giải:

Cũng như R2], nhưng có số biến giải thích khác nhau. Vì R2 điều chỉnh thường

nhỏ hơn R2 không điều chỉnh, nên dường như R2 điều chỉnh gán một mức phạt

cho việc đưa nhiều hơn số biến giải thích vào mô hình. [Công thức điều chỉnh

đã được trình bày ở chương 1].

3. Tiêu chí thông tin Akaike (AIC)

Giống như R2 điều chỉnh, tiêu chí AIC đưa một mức phạt khắt nghiệt hơn cho

việc đưa nhiều biến giải thích vào mô hình. Ở dạng logarít, AIC được định nghĩa

như sau:

Trong đó, RSS là tổng bình phương phần dư và 2k/n là nhân tố phạt do đưa

nhiều biến giải thích vào mô hình.

Tiêu chí AIC hữu ích khi so sánh hai hoặc nhiều mô hình. Mô hình với AIC thấp

nhất thường là mô hình được chọn. Tiêu chí AIC cũng được sử dụng để đánh

giá thành tích dự báo trong và ngoài mẫu của một mô hình hồi quy.

4. Tiêu chí thông tin Schwarz (SIC)

Đây là một cách khác của tiêu chí AIC, và dạng logarít của nó có thể được thể

hiện như sau:

Nhân tố phạt ở đây là [(k/n)ln(n)], khắt nghiệt hơn so với tiêu chí AIC. Giống

AIC, giá trị SIC thấp hơn thì mô hình tốt hơn. Cũng như AIC, SIC có thể được

sử dụng để so sánh thành tích dự báo trong và ngoài mẫu của một mô hình hồi

Cũng nên nói thêm là ý tưởng đằng sau việc đưa nhân tố phạt là ‘nguyên tắc tri

thức tối thiểu’ (Occam’s razor, tức là mô hình càng đơn giản thì càng xác đáng),

theo nguyên tắc này ‘những mô tả nên được giữ càng đơn giản càng có thể

miễn chứng minh là hợp lý’. Đây cũng được biết như nguyên tắc dao cạo.

Trên cơ sở nguyên tắc này, đâu là một tiêu chí tốt hơn, AIC hay SIC? Hầu như

thường thì hai tiêu chí này lựa chọn mô hình giống nhau, nhưng không phải

luôn luôn như thế. Về mặt lý thuyết, AIC có thể được ưa thích hơn, nhưng trên

thực tế bạn có thể chọn tiêu chính SIC, vì nó có thể chọn một mô hình đơn giản

hơn, khi giữ nguyên các yếu tố khác không đổi23. Trong kết quả hồi quy, Eviews

trình bày cả hai tiêu chí này.

Nếu bạn so sánh mô hình xu thế tuyến tính ở Bảng 2.7 với mô hình xu thế bậc

hai ở Bảng 2.12, bạn sẽ thấy rằng đối với mô hình xu thế tuyến tính giá trị Akaike

23 Thảo luận chi tiết hơn về ưu điểm tương đối của các tiêu chí lựa chọn mô hình khác nhau, có thể xem Francis X. Diebold, Elements of Forecasting, 3rd edn, Thomson/South-Western Publishers, 2004, pp. 87-90.

là 15.0 và đối với mô hình xu thế bậc hai là -4.23. Ở đây bạn sẽ chọn mô hình

xu thế bậc hai. [Diễn giải: Tôi nghĩ Gujarati bị nhầm, vì hai biến phụ thuộc ở hai

mô hình này khác nhau: RGDP và ln(RGDP). Với biến phụ thuộc dạng log, thì

giá trị AIC hoặc SIC là âm]. Trên cơ sở tiêu chí Schwarz, thì những giá trị này

là 15,17 cho mô hình xu thế tuyến tính và -4.12 cho mô hình xu thế bậc hai.

Một lần nữa, bạn sẽ chọn mô hình xu thế bậc hai trên cơ sở tiêu chí này. [Diễn

giải: Như trên, hai biến phụ thuộc khác nhau, cần cẩn thận]. Tuy nhiên, đối với

mô hình xu thế bậc hai, giá trị AIC (-4.23) âm nhiều hơn giá trị SIC (-4.12), tức

là AIC hơi ưu thế hơn trong việc lựa chọn.

Điều thú vị cần lưu ý là đối với mô hình hồi quy tuyến tính, cả hai tiêu chí có liên

quan đến kiểm định F như sau: ‘Đối với một mẫu đủ lớn, việc so sánh các giá

trị AIC tương ứng một kiểm định F với giá trị phê phán là 2 và SIC tương ứng

một kiểm định F với giá trị phê phán là log(n)’24.

2.11 Tóm tắt và kết luận

Trong chương này chúng ta đã xem xét nhiều dạng mô hình hồi quy tuyến tính

khác nhau – đó là, các mô hình tuyến tính ở tham số hoặc có thể được chuyển

sang tuyến tính ở tham số với những chuyển đổi phù hợp. Mỗi mô hình hữu ích

trong một số tình huống. Trong một số ứng dụng, nhiều hơn một mô hình có

24 Xem Christiaan Heij, Paul de Boer, Philip Hans Franses, Teun Kloek, and Herman K. van Dijk, Econometrics Methods with Applications in Business and Economics, Oxford University Press, Oxford, UK, 2004, p. 280.

thể phù hợp với dữ liệu. Chúng ta đã thảo luận các đặc điểm riêng của mỗi mô

hình về khía cạnh các hệ số độ dốc và hệ số co giãn.

Khi so sánh hai hoặc nhiều mô hình trên cơ sở R2 chúng ta đã chỉ ra rằng biến

phụ thuộc trong các mô hình này phải giống nhau. Cụ thể, chúng ta đã thảo

luận việc lựa chọn giữa một mô hình tuyến tính và log-tuyến tính, hai dạng mô

hình được sử dụng phổ biến trong nghiên cứu.

Mặc dù chúng ta đã thảo luận các mô hình khác nhau, giới hạn trong các mô

hình hồi quy tuyến tính hai hoặc ba biến cho các mục đích mô tả, nhưng chúng

ta có thể dễ dàng mở rộng cho các mô hình hồi quy với bất kỳ số biến giải thích

nào25. Chúng ta cũng có thể có các mô hình trong đó một số biến giải thích ở

dạng tuyến tính và một số ở dạng log-tuyến tính. [Diễn giải: Tức thực tế thì

chúng ta sử dụng các mô hình kết hợp nhiều dạng hàm trong một mô hình, tùy

vào dữ liệu mà chúng ta có].

Chúng ta đã thảo luận ngắn gọn vai trò của các biến chuẩn hóa trong phân tích

hồi quy. Vì một biến chuẩn hóa có trung bình bằng 0 và độ lệch chuẩn bằng 1,

nên nó dễ dàng hơn cho chúng ta so sánh ảnh hưởng tương đối của các biến

giải thích khác nhau lên biến phụ thuộc.

Chúng ta có thể đánh giá một mô hình dựa vào các dấu kỳ vọng của các hệ số

hồi quy, mức ý nghĩa thống kê của chúng dựa trên giá trị t của các hệ số ước

lượng, hoặc kiểm định F nếu chúng ta quan tâm đến mức ý nghĩa kết hợp của

hai hay nhiều biến. Chúng ta có thể đánh giá mức độ phù hợp chung của một

mô hình dựa vào R2. Nếu chúng ta so sánh hai hoặc nhiều mô hình hồi quy,

chúng ta có thể sử dụng R2 điều chỉnh, tiêu chí AIC, hoặc SIC.

25 Để xử lý các mô hình hồi quy đa biến, chúng ta cần sử dụng đại số ma trận.

Trong chương này, chúng ta cũng thảo luận làm thế nào để đưa các ràng buộc

tuyến tính khi ước lượng các mô hình hồi quy. Những ràng buộc như thế thường

được đề xuất bởi lý thuyết kinh tế./.

chương 2 dạng hàm của các mô hình hồi quy · pdf file1 xem...

Documents

bàn về mô hình giáo dục điện tử

cÁc hÀm vỀ toÁn hỌc trong excel

i w i w trong kinh tẾ q k l i ' ( , ) w u w ( 1, ) · pdf...

tỔng quan vỀ bỐn bỘ a hÀm 3 - thuvienhoasen.org

bộ sách về phương trình hàm

chƣơng 1. tỔng quan vỀ kinh tẾ vi mÔ · pdf file1...

tÌm hiỂu mÔ hÌnh vÀ cÔng nghỆ vỀ luỒng cÔng...

mÔ hÌnh sỐ nhÂn cỦa keynes vÀ hÀm Ý chÍnh sÁch

bài 3: căn bản về hàm -...

mÔ hÌnh hÓa trong dẠy hỌc khÁi niỆm ĐẠo hÀm

mỘt sỐ vẤn ĐỀ chung vỀ mÔ hÌnh trƯỜng hỌc...

nganluong.vn · web viewsơ đồ 4 2. mô tả trực quan...

giới thiệu về mô hình world cafe

mÔ-Đun 1 giỚi thiỆu vỀ ĐÁnh giÁ mÔi trƯỜng...

mÔ tẢ cÁc thuẬt ngỮ cẢm quan vỀ bia

chƯƠng 1 khÁi quÁt vỀ kinh tẾ vĨ mÔ

tìm hiểu về hàm hô

thÔng tin vỀ mÔ hÌnh quẢn trỊ, tỔ chỨc kinh...

mÔ Đun 01: hiỂu biẾt vỀ cntt cƠ bẢn (mÃ iu01)

1: lÝ thuy vÀ cÁc hÀm Ý cho vimỤc lỤc chƯƠng 1:...