chương 2 dạng hàm của các mô hình hồi quy · pdf file1 xem...
Post on 07-Feb-2018
220 Views
Preview:
TRANSCRIPT
1
Chương 2
Dạng hàm của các mô hình hồi quy
Domadar N. Gujarati
(Econometrics by example, 2011).
Người dịch và diễn giải: Phùng Thanh Bình, MB (24/10/2017)
Chúng ta sẽ nhớ lại rằng mối quan tâm của ta trong cuốn sách này chủ yếu là
các mô hình hồi quy tuyến tính, nghĩa là, các mô hình tuyến tính ở các tham số;
chúng có thể hoặc không tuyến tính ở các biến. Trong chương này, chúng ta
xem xét một số mô hình tuyến tính ở các tham số nhưng không nhất thiết như
vậy ở các biến. Cụ thể, chúng ta sẽ thảo luận các mô hình thường được sử
dụng trong phân tích trong thực tế sau đây.
1. Các mô hình log-linear hoặc double log ở đó cả biến phụ thuộc và các
biến giải thích đều ở dạng logarít.
2. Các mô hình log-lin ở đó biến phụ thuộc có dạng logarít, nhưng các biến
giải thích có thể ở dạng logarít hoặc dạng tuyến tính.
3. Các mô hình lin-log ở đó biến phụ thuộc dạng tuyến tính, nhưng một
hoặc nhiều hơn các biến giải thích ở dạng logarít.
4. Các mô hình nghịch đảo ở đó các biến giải thích ở dạng nghịch đảo.
5. Các mô hình hồi quy với biến chuẩn hóa.
Chúng ta sẽ sử dụng một số ví dụ để minh họa các mô hình khác nhau trong
chương này.
2
2.1 Các mô hình log - tuyến tính, log kép, hoặc hệ số co giãn cố định
Chúng ta xem xét hàm sản xuất Cobb-Douglas nổi tiếng, có thể được thể hiện
như sau1:
Qi = B1LiB2Ki
B3 (2.1)
Trong đó: Q = output (sản lượng), L = labor input (nhập lượng lao động), K =
capital (vốn), và B1 hằng số.
Mô hình này là phi tuyến ở các tham số và để ước lượng mô hình này đúng như
bản chất của nó đòi hỏi các kỹ thuật ước lượng phi tuyến. Tuy nhiên, nếu chúng
ta lấy log của hàm số này, thì chúng ta sẽ có:
lnQi = lnB1 + B2lnLi + B3lnKi (2.2)
Trong đó, ln là logarít tự nhiên.
Đặt lnB1 = A, chúng ta có thể viết phương trình (2) như sau:
lnQi = A + B2lnLi + B3lnKi (2.3)
Phương trình (2.3) là tuyến tính ở các tham số A, B2, và B3 và vì thế là một
phương trình tuyến tính, mặc dù nó là phương trình phi tuyến ở các biến Q, L, và
K2.
Đưa thêm hạng nhiễu ui vào phương trình (2.3), chúng ta có mô hình hồi quy
tuyến tính sau đây:
1 Xem bất kỳ giáo trình kinh tế học vi mô nào để tìm hiểu về lịch sử và chi tiết về hàm sản xuất Cobb-Douglas. 2 Lưu ý: A = lnB1. Vì thế, B1 = anti-log(A), là phi tuyến tính. Tuy nhiên, trong hầu hết các ứng dụng, thì hệ số cắt có thể không có bất kỳ giải thích kinh tế nào rõ ràng (viable economic interpretation).
3
lnQi = A + B2lnLi + B3lnKi + ui (2.4)
Phương trình (2.4) được biết với các tên gọi khác nhau như mô hình log-log, mô
hình log kép (double-log), mô hình log-tuyến tính (log-linear), hoặc mô hình hệ
số co giãn cố định (constant elasticity model), bởi vì cả biến phụ thuộc và các
biến giải thích đều ở dạng log.
Một đặc điểm thú vị của mô hình log-tuyến tính là các hệ số độ dốc có thể được
giải thích như là các hệ số co giãn3. Cụ thể, B2 là hệ số co giãn (riêng phần)
của sản lượng theo lao động, khi giữ nguyên các biến khác không đổi (ở đây là
vốn, hay K). Nghĩa là, hệ số này cho biết thay đổi phần trăm về lượng theo
một thay đổi phần trăm của lao động, khi các yếu tố khác được giữ nguyên4.
Tương tự, B3 là hệ số co giãn (riêng phần) của sản lượng theo vốn, khi giữ
nguyên các biến khác không đổi. Vì các hệ số co giãn này cố định trong cả mẫu
quan sát được sử dụng, nên mô hình log kép cũng được gọi là mô hình hệ số
co giãn không đổi.
Một ưu điểm của các hệ số co giãn là chúng là các con số thuần khiết, nghĩa
là, không có các đơn vị đo lường trong các biến, chẳng hạn như theo đô la, số
giờ lao động, số giờ của vốn, bởi vì chúng là các tỷ số của những thay đổi phần
trăm.
Một tính chất thú vị khác của hàm sản suất Cobb-Douglas là tổng của các hệ
số co giãn riêng phần, (B2 + B3), cung cấp thông tin về hiệu suất thay đổi theo
quy mô (lưu ý: returns to scale khác với economies of scale - lợi thế kinh tế nhờ
quy mô nhé), nghĩa là, sự phản ứng của xuất lượng theo một sự thay đổi tỷ lệ
trong các nhập lượng. Nếu tổng này bằng 1, thì ta có hiệu suất không đổi theo
quy mô (constant returns to scale) - nghĩa là, tăng gấp đôi các nhập lượng sẽ
3 Một hệ số co giãn đơn giản là tỷ số của thay đổi phần trăm trong một biến chia cho thay đổi phần trăm trong một biến khác. Ví dụ, nếu Q là lượng và P là giá, thì thay đổi phần trăm trong lượng chia cho thay đổi phần trăm trong giá được gọi là hệ số co giãn theo giá. 4 Tức là: B2 = ∂lnQ / ∂lnL = (∂Q/Q) / (∂L/L) = (∂Q/∂L) x (L/Q); trong đó, chúng ta sử dụng ∂ để chỉ rằng chúng ta đang lấy đạo hàm riêng phần (partial derivative).
4
tăng gấp đôi xuất lượng, tăng gấp ba các nhập lượng sẽ tăng gấp ba xuất lượng,
và văn văn. Nếu tổng này nhỏn hơn 1, thì ta có hiệu suất giảm theo quy
mô (descreasing returns to scale) - nghĩa là, tăng gấp đôi các nhập lượng xuất
lượng sẽ không tăng gấp đôi. Cuối cùng, nếu tổng này lớn hơn 1, thì ta có hiệu
suất tăng theo quy mô (increasing returns to scale) - nghĩa là, tăng gấp đôi các
nhập lượng, xuất lượng tăng hơn gấp đôi.
Trước khi trình bày một ví dụ cụ thể, ta nên lưu ý rằng trong một mô hình hồi
quy dạng log - tuyến tính có liên quan đến nhiều biến, thì hệ số độ dốc của mỗi
biến giải thích cho biết hệ số co giãn riêng phần của biến phụ thuộc (nhớ là
không ở dạng log nhé) theo biến giải thích đó, khi giữ nguyên các biến khác
không đổi.
Hàm sản xuất Cobb-Douglas cho khu vực sản xuất của Mỹ
Để minh họa hàm Cobb-Douglas, ta sử dụng dữ liệu Bảng 2.1 về xuất lượng
(được đo bằng giá trị gia tăng, 1000 đô la), nhập lượng lao động (số giờ làm
việc của công nhân, 1000 giờ), và nhập lượng vốn (chi tiêu vốn, 1000 đô la) cho
khu vực sản xuất của Mỹ. Dữ liệu chéo gồm 50 bang và thủ đô Washington
trong năm 2005. Bảng dữ liệu này có thể tìm thấy trên website của cuốn sách.
Giải thích kết quả
Điểm đầu tiên cần lưu ý là tất cả các hệ số hồi quy (tức là các hệ số co giãn)
đều có ý nghĩa thống kê rất cao vì giá trị p của mỗi hệ số rất thấp. Thứ hai, dựa
trên thống kê F, ta cũng có thể kết luận rằng hai yếu tố nhập lượng, lao động
và vốn, kết hợp với nhau có ý nghĩa thống kê rất cao bởi vì giá trị p của thống
kê F rất thấp. Giá trị R2 là 0.96 cũng khá cao, điều này là bất thường đối với dữ
liệu chéo về các bang rất không đồng nhất. Các tiêu chí Akaike và Schwazr là
những thước đo thay thế của R2, các thước đo này sẽ được thảo luận kỹ hơn ở
phần sau của. Thống kê Durbin-Watson, mặc dù thường được cung cấp sẵn bởi
5
Eviews, nhưng có thể hoặc không phải luôn luôn hữu ích trong dữ liệu chéo,
mặc dù thỉnh thoảng nó là một dấu hiệu cho biết các lỗi sai dạng mô hình, như
ta sẽ thấy ở Chương 7 về các lỗi sai dạng mô hình.
Bảng 2.1: Hàm sản xuất Cobb-Douglas của Mỹ, 2005.
Dữ liệu: Table2-1
Lưu ý: Với Eviews, chúng ta có thể sử dụng log(Output), log(Labor), … mà
không cần phải tạo thêm các biến mới.
6
STATA
Hệ số của biến lnLABOR khoảng 0.47 được giải thích là nếu ta tăng nhập lượng
lao động thêm 1%, trung bình, sản lượng tăng thêm khoảng 0.47%, khi giữa
nguyên nhập lượng vốn không đổi. Tương tự, khi giữ nguyên nhập lượng
lao động không đổi, nếu ta tăng nhập lượng vốn thêm 1%, thì trung bình, sản
lượng tăng thêm khoảng 0.52%. Nói một cách tương đối, dường như một phần
trăm tăng thêm trong nhập lượng vốn đóng góp nhiều hơn cho sản lượng so với
một phần trăm tăng thêm trong nhập lượng lao động.
Tổng của hai hệ số độ dốc khoảng 0.9896, gần bằng 1. Điều này có thể cho
biết rằng hàm sản xuất Cobb-Douglas của Mỹ có đặc điểm là có hiệu suất
không đổi theo quy mô trong năm 20055.
5 Chúng ta sẽ không thảo luận ở đây câu hỏi liệu rằng một hàm sản xuất cho cả nước Mỹ nói chung có ý nghĩa hay không. Lý thuyết về chủ đề này rất nhiều. Mục tiêu chính của chúng ta là để minh họa mô hình log kép.
7
Tiện thể, nếu em muốn trở lại hàm sản xuất ban đầu như được cho trong
phương trình (2.1), thì ta viết ra như sau:
Qi = 48.79Li0.47Ki
0.52 (2.5)
Lưu ý: 48.79 là xấp xỉ của anti-log của 3.88766 [=EXP(3.8876)].
Đánh giá kết quả hồi quy
Mặc dù, được đánh giá bởi các tiêu chí thống kê thông dụng, kết quả của hàm
sản xuất Cobb-Douglas được cho ở Bảng 2.2 trong có vẻ ấn tượng, chúng ta
phải cảnh giác với khả năng xảy ra hiện tượng phương sai thay đổi. Đây là bởi
vì mẫu của chúng ta bao gồm các bang rất khác biệt, với các khu vực sản xuất
rất khác nhau. Quy mô tự nhiên (vật lý) và mật độ sản xuất cũng khác nhau
giữa các bang. Ở Chương 5, bàn về phương sai thay đổi, chúng ta sẽ xem xét
lại hàm sản xuất Cobb-Douglas để tìm hiểu xem liệu có vấn đề phương sai thay
đổi hay không.
Ở Chương 7, bàn về các lỗi về xác định mô hình, chúng ta cũng sẽ tìm hiểu
xem liệu hạng nhiễu có theo phân phối chuẩn hay không, vì các kiểm định t
và F phụ thuộc rất nhiều vào giả định phân phối chuẩn, đặc biệt là khi cỡ mẫu
nhỏ. Trong chương 7, chúng ta cũng sẽ xem xét liệu có bất kỳ lỗi xác định mô
hình trong hàm sản xuất Cobb-Douglas được sử dụng trong ví dụ của chúng ta
hay không.
Mặc dù dạng mô hình log kép của hàm sản xuất Cobb-Douglas là dạng
chuẩn trong lý thuyết, nhưng vì các mục đích so sánh, chúng ta cũng trình bày
kết quả hồi quy của hàm sản xuất dạng tuyến tính như sau:
Outputi = A1 + A2Labori + A3Capitali + ui (2.6)
6 Nhớ rằng A = ln B1, vì thế B1 = anti-log(A)
8
Kết quả hồi quy này được trình bày ở Bảng 2.3.
Bảng 2.3: Hàm sản xuất tuyến tính.
STATA
9
Các hệ số của lao động và vốn trong mô hồi quy này có ý nghĩa thống kê rất
cao. Nếu nhập lượng lao động tăng thêm một đơn vị, sản lượng trung bình tăng
thêm 48 đơn vị, khi giữ nguyên lượng vốn không đổi. Tương tự, nếu nhập lượng
vốn tăng thêm một đơn vị, sản lượng, trung bình, tăng thêm khoảng 10 đơn vị,
khi các yếu tố khác được giữ nguyên. Lưu ý rằng việc giải thích về các hệ số
độ dốc trong hàm sản xuất dạng log - tuyến tính và các hệ số độ dốc trong hàm
sản xuất dạng tuyến tính là khác nhau.
Mô hình nào tốt hơn, mô hình tuyến tính hay mô hình log - tuyến tính? Không
may, ta không thể so sánh hai mô hình này một cách trực tiếp, vì biến phụ thuộc
trong hai mô hình này khác nhau. Ta cũng không thể so sánh các giá trị R2 của
hai mô hình, bởi vì để so sánh các giá trị R2 của bất kỳ hai mô hình nào, biến
phụ thuộc phải giống nhau trong hai mô hình. Ở mục 2.8, ta sẽ thấy làm sao để
có thể so sánh giữa các mô hình tuyến tính và log - tuyến tính.
2.2 Kiểm định độ chuẩn xác của các ràng buộc tuyến tính
Hàm sản xuất Cobb-Douglas dạng log-tuyến tính phù hợp với dữ liệu sản xuất
cho thấy rằng tổng các hệ số co giãn của sản lượng theo lao động và của sản
lượng theo vốn là 0.9896, xấp xỉ bằng 1. Con số này có thể nói lên rằng ngành
công nghiệp sản xuất của Mỹ có hiệu suất không đổi theo quy mô. Làm sao ta
có thể kiểm định giả thuyết này.
Nếu thức sự B1 + B2 = 1, đó là một ví dụ của một ràng buộc tuyến tính (linear
restriction), một cách kiểm định giả thuyết hiệu suất không đổi theo quy
mô là đưa ràng buộc này một các trực tiếp vào thủ tục ước lượng. Để thấy điều
này được thực hiện như thế nào, ta có thể viết:
B2= 1 - B3 (2.7)7
7 Chúng ta cũng có thể thể hiện ràng buộc tuyến tính như sau: B3 = 1 – B2.
10
Vì thế, chúng ta có thể viết hàm sản xuất Cobb-Douglas dạng log-tuyến tính
như sau:
lnQi = A + (1 – B3)lnLi + B3lnKi + ui (2.8)
Gom các số hạng lại, chúng ta có thể viết phương trình (2.8) như sau:
lnQi - lnLi = A + B3(lnKi - lnLi) + ui (2.9)
Sử dụng các tính chất của logarít, chúng ta có thể viết phương trình này như
sau8:
ln(Qi / Li) = A + B3ln(Ki / Li) + ui (2.10)
Trong đó (Qi / Li) là tỷ số sản lượng/lao động, hoặc năng suất lao động, và
(Ki/Li) là tỷ số vốn/lao động, hai trong số những tỷ số quan trọng của tăng trưởng
và phát triển kinh tế.
Diễn đạt bằng lời, phương trình (2.10) phát biểu rằng năng suất lao động là một
hàm của tỷ số vốn/lao động. Chúng ta gọi phương trình (2.10) là mô hình hồi
quy bị giới hạn (RS), và phương trình gốc (2.10) là mô hình hồi quy không bị
giới hạn (URS) vì nhiều lý do hiễn nhiên.
Một khi chúng ta ước lượng phương trình (2.10) bằng OLS, chúng ta có thể có
được giá trị ước lượng của B3, từ đó ta có thể dễ dàng có được giá trị của
B2 thông qua ràng buộc tuyến tính (B2 + B3 = 1). Làm sao chúng ta có thể quyết
định được ràng buộc này là chuẩn xác? Để trả lời câu hỏi này, trước hết chúng
ta trình bày kết quả hồi quy dựa theo phương trình (2.10): Bảng 2.4.
8 Lưu ý rằng ln XY = ln X + ln Y; ln(X / Y) = ln X – ln Y; ln Xk = k ln X (với k là một hằng số), nhưng lưu ý rằng ln (X +
Y) ln X + ln Y.
11
Bảng 2.4: Hàm sản xuất Cobb-Douglas với ràng buộc tuyến tính.
STATA
. gen lnoutlab=ln(output/labor)
. gen lncaplab=ln(capital/labor)
12
Các kết quả này cho thấy rằng nếu tỷ số vốn/lao động tăng thêm 1%, thì năng
suất lao động tăng thêm khoảng 0.5%. Nói cách khác, hệ số co giãn của năng
suất lao động theo tỷ số của vốn/lao động là 0.5, và hệ số co giãn này có ý
nghĩa rất cao. Lưu ý là R2 khoảng 0.38 thì không thể so sánh một cách trực
tiếp với giá trị R2 ở Bảng 2.2 bởi vì biến phụ thuộc ở hai mô hình là khác nhau.
Để kiểm định độ chuẩn xác của ràng buộc tuyến tính, trước hết chúng ta cần
định nghĩa:
• RSSR = residual sum of squares from the restricted regression, Eq.(2.10)
[tổng bình phương phần dư từ hồi quy bị ràng buộc, phương trình (2.10)].
• RSSUR = residual sum of squares from the unrestricted regression,
Eq.(2.4) [tổng bình phương phần dư từ hồi quy không bị ràng buộc,
phương trình (2.4)].
• m = number of linear restrictions [số ràng buộc tuyến tính, là 1 trong ví
dụ hiện tại].
• k = number of parameters in the unrestricted regression [số tham số trong
mô hình hồi quy không bị giới hạn, là 3 trong ví dụ hiện tại].
• n = number of observations [số quan sát, là 51 trong ví dụ hiện tại].
Bây giờ để kiểm định độ chuẩn xác của ràng buộc tuyến tính, ta sử dụng một
biến thể của thống kê F đã được thảo luận ở Chương 19:
F =
(RSSR− RSSUR)
mRSSUR(n−k)
~ Fm, (n-k) (2.11)
theo phân phối xác suất F, trong đó m và (n - k) là các bậc tự do của tử và mẫu.
Cần lưu ý rằng RSSR không bao giờ bé hơn RSSUR, cho nên tỷ số F luôn luôn
không âm.
9 Để biết thêm chi tiết, xem Gujarati/Porter, pp. 243 – 6.
13
Như thường lệ, nếu giá trị F tính toán lớn hơn giá trị F phê phán (tra bảng) tại
mức ý nghĩa được chọn và bậc tự do thích hợp, chúng ta bác bỏ giả thuyết
không; ngược lại, ta không thể bác bỏ giả thuyết không.
Từ Bảng 2.2, ta có RSSUR = 3.4155 và từ Bảng 2.4, ta có RSSR = 3.4255.
Chúng ta biết rằng m = 1 và n = 51. Thay các giá trị này vào phương trình (2.11),
chúng ta sẽ thấy rằng giá trị F tính toán khoảng 0.142. Với bậc tự do của tử là
1 bậc tự do của mẫu là 48, giá trị F này không có ý nghĩa thống
kê [=F.INV(95%,1,48) = 4.0427]; thực vậy, giá trị xác suất p để có giá trị F như
thế (tức mức ý nghĩa chính xác) là khoảng 0.29 [=F.DIST(0.142,1,48,TRUE) =
0.29]. Vì thế, kết luận trong ví dụ hiện tại là hàm sản xuất Cobb-Douglas trong
Bảng 2.2 có thể thể hiện hiệu suất không đổi theo quy mô. Cho nên không có
rủi ro gì khi sử dụng hàm sản xuất như được cho ở phương trình (2.10). Nhưng
cần nhấn mạnh rằng thủ tục kiểm định F được trình bày ở trên chỉ có giá trị (hiệu
lực) đối với ràng buộc tuyến tính; thủ tục này không có hiệu lực đối với các ràng
buộc phi tuyến, chẳng hạn như B2B3 = 1.
HƯỚNG DẪN KIỂM ĐỊNH RÀNG BUỘC TUYẾN TÍNH TRÊN EVIEWS VÀ STATA
14
15
STATA
2.3 Các mô hình dạng log-lin hoặc các mô hình tăng trưởng
Một chủ đề rất được quan tâm của các nhà kinh tế, chính phủ, giới kinh doanh,
và những nhà làm chính sách là tốc độ tăng trưởng của các biến kinh tế chủ
chốt như GDP, cung tiền, dân số, việc làm, năng suất, và lãi suất.
Để biết tốc độ tăng trưởng của một biến kinh tế có thể được đo như thế
nào, chúng ta tiến hành như sau. Cụ thể, giả sử chúng ta muốn đo tốc độ tăng
trưởng của GDP thực (tức là GDP được điều chỉnh lạm phát) của
Mỹ giai đoạn 1960-2007. Vì mục đích này, giả sử chúng ta sử dụng mô hình
sau đây:
RGDPt = RGDP1960(1 + r)t (2.12)
16
Trong đó, RGDP là GDP thực, r tốc độ tăng trưởng, và t là thời gian được đo
theo thứ tự thời gian (tức từ 1, 2, …, T).
Phương trình (2.12) là công thức lãi kép (compound interest formula) rất phổ
biến trong tài chính căn bản. Lấy log tự nhiên hai vế của phương trình (2.12),
chúng ta có:
ln RGDPt = ln RGDP1960 + t ln(1 + r) (2.13)
Bây giờ, đặt B1 = ln RGDP1960 và B2 = ln (1 + r), chúng ta có thể viết phương
trình (2.13) như sau:
ln RGDPt = B1 + B2t (2.14)
Đưa thêm hạng nhiễu ut vào phương trình (2.14), chúng ta có mô hình hồi quy
sau đây10:
ln RGDPt = B1 + B2t + ut (2.15)
Phương trình (2.15) giống bất kỳ một mô hình hồi quy nào khác; điểm khác biệt
duy nhất là ở đây biến giải thích là "thời gian", biến này có các giá trị 1, 2, ...,
47.
Mô hình (2.15) được gọi là mô hình bán log (semilog) bởi vì chỉ một biến (trong
trường hợp này là biến phụ thuộc) xuất hiện ở dạng log, trong khi đó biến giải
thích (ở đây là biến thời gian) ở dạng tuyến tính. Vì các mục đích mô tả, ta gọi
phương trình (2.15) là mô hình log-lin (log-lin model).
Phương trình (2.15) có thể được ước lượng theo thủ tục OLS thông thường.
Nhưng trước khi chúng ta trình bày kết quả hồi quy, cần lưu ý rằng hệ số độ dốc
B2 trong phương trình (2.14) đo lường một sự thay đổi tỷ lệ hay thay đổi tương
10 Chúng ta đưa hạng nhiễu để tính đến khả năng công thức lãi kép có thể không đúng chính xác.
17
đối trong biến phụ thuộc theo một sự thay đổi tuyệt đối cho trước trong giá trị
của biến giải thích. Đó là,
(thay đổi tương đối trong biến phụ thuộc)
B2 = ------------------------------------------------------- (2.16)11
(thay đổi tuyệt đối trong biến giải thích)
Trong thực tế, ta nhân B2 cho 100 để tính thay đổi phần trăm, hoặc tốc độ tăng
trưởng (growth rate); 100 nhân B2 cũng được biết như là hệ số bán co
giãn (semi-elasticity) của biến phụ thuộc theo biến giải thích.
Kết quả hồi quy
Sử dụng dữ liệu GDP thực của USA giai đoạn 1960-2007, chúng ta thu được
kết quả hồi quy như trong Bảng 2.6. Tập tin Table 2.5 có thể được tìm thấy trên
website của cuốn sách.
Bảng 2.6: Tốc độ tăng trưởng GDP thực của Mỹ, 1960-2007.
11 Các bạn đọc quen với giải tích có thể lấy sai phân (differentiate) phương trình (2.15) theo t, để có: d(lnRGDP) / dt = B2. Nhưng d(lnRGDP) / dt = (1/RGDP) x (d(RGDP) / dt, đó là một thay đổi tương đối trong RGDP.
18
STATA
Giải thích các kết quả
Các kết quả này cho thấy rằng trong giai đoạn 1960-2007, GDP thực của Mỹ đã
tăng với tốc độ 3.15% một năm. Tốc độ tăng trưởng này có ý nghĩa thống kê, vì
giá trị t ước lượng (tính toán) khoảng 90.82 là có ý nghĩa rất cao.
Còn giải thích hệ số cắt như thế nào? Nếu em lấy anti-log của 7.8756, chúng
ta có anti-log(7.8756) tức exp(7.8756 )= 2632.27, đó là giá trị bắt đầu của chuỗi
GDP thực, nghĩa là, giá trị vào đầu năm 1960, điểm khởi đầu của chúng ta. Giá
trị thực của RGDP năm 1960 là khoảng 2501.8 tỷ đô la.
Hình 2.1 là đồ thị phân tán (scatter diagram) của log của GDP thực và thời gian
và đường hồi quy phù hợp (fitted regression line).
Lưu ý về mặt kỹ thuật: Hệ số B2 cho biết tốc độ tăng trưởng tức thời (tại một thời
điểm, instantaneous rate of growth) chứ không phải là tốc độ tăng trưởng kép
(qua một giai đoạn, compound rate of growth), r. Nhưng cũng dễ dàng tính được
tốc độ tăng trưởng kép, lưu ý rằng B2 = ln(1 + r). Vì thế, r = anti-log(B2) - 1. Bây
giờ lấy anti-log (B2) = 1.03199. Vì thế, tốc độ tăng trưởng kép là 0.03199 hoặc
19
khoảng 3.2%, hơi cao hơn so với tốc độ tăng trưởng tức thời khoảng 3.1%. Khác
biệt này là do việc tính kép.
20
7.80
7.90
8.00
8.10
8.20
8.30
8.40
8.50
8.60
8.70
8.80
8.90
9.00
9.10
9.20
9.30
9.40
0 2 4 6 8 10 13 16 19 22 25 28 31 34 37 40 43 46 49
TIME
LN
RG
DP
Hình 2.1: Log của GDP thực, 1960 – 2007.
Mô hình Xu thế tuyến tính
Giả sử rằng, thay vì ước lượng mô hình tăng trưởng (2.14), chúng ta ước lượng
mô hình sau đây:
RGDPt = A1 + A2time + ut (2.17)
Đây được gọi là mô hình xu thế tuyến tính và biến thời gian được gọi là biến xu
thế. Hệ số độ dốc A2 trong mô hình này cho biết thay đổi tuyệt đối (chứ không
21
phải thay đổi tương đối) trong RGDP trên một đơn vị thời gian. Nếu A2 dương,
thì chúng ta có xu thế tăng trong RGDP, nhưng nếu âm, thì chúng ta có xu thế
giảm trong RGDP hay bất kỳ biến phụ thuộc nào.
Sử dụng dữ liệu trong Table 2.5, chúng ta thu được kết quả hồi quy như trong
Bảng 2.7.
Bảng 2.7: Xu thế trong GDP thực của Mỹ, 1960-2007.
Các kết quả cho thấy rằng trong giai đoạn 1960-2007, GDP thực của Mỹ tăng
khoảng 187 tỷ đô lamột năm, cho thấy xu thế tăng - phát hiện này không có gì
đáng ngạc nhiên.
22
Việc chọn lựa giữa mô hình tăng trưởng như phương trình (2.15) và mô hình xu
thế tuyến tính như phương trình (2.17) là tùy vào người nghiên cứu, mặc dù để
so sánh RGDP giữa các vùng hoặc các nước thì mô hình tăng trưởng có lẽ thích
hợp hơn. Lưu ý rằng vì các biến phụ thuộc trong mô hình log-lin và mô hình xu
thế tuyến tính là khác nhau, nên sẽ không phù hợp nếu so sánh hai giá trị R2
để xác định nên chọn mô hình nào. Nhưng chúng ta sẽ bàn vấn đề này kỹ hơn
ở Mục 2.7.
Vì ta đang sử dụng dữ liệu chuỗi thời gian, nên thống kê Durbin-Watson, một
thước đo sự tự tương quan trong hạng nhiễu, là một thống kê quan trọng. Trong
Chương 6 về tự tương quan ta sẽ biết các giải thích thống kê này như thế nào.
Còn bây giờ chỉ cần biết rằng nếu không có tự tương quan thì giá trị của thống
kê Durbin-Watson khoảng bằng 212; giá trị này càng gần bằng 0, thì càng có
bằng chứng của sự tự tương quan.
2.4 Lin-log models
Trong mô hình log-lin hoặc mô hình tăng trưởng, chúng ta quan tâm đến việc đi
tìm tăng trưởng phần trăm trong biến phụ thuộc theo một thay đổi đơn vị trong
biến giải thích. Còn việc đo lường thay đổi tuyệt đối trong biến phụ thuộc theo
một thay đổi phần trăm trong biến giải thích thì sao? Nếu đó là mục tiêu phân
tích, thì chúng ta có thể ước lượng mô hình sau đây:
Yi = B1 + B2lnXi + ui (2.18)
Chúng ta gọi phương trình (2.18) là mô hình lin-log, vì nhiều lý do.
Hệ số độ dốc B2 của mô hình này cho chúng ta biết điều gì? Như chúng ta biết,
hệ số độ dốc cho biết sự thay đổi trong Y theo một sự thay đổi đơn vị trong biến
giải thích. Vì thế,
12 Như chúng ta sẽ thấy ở chương 6, thống kê này dựa trên một số giả định.
23
(thay đổi tuyệt đối trong biến Y)
B2 = -------------------------------------------
(thay đổi trong biến lnX)
(thay đổi tuyệt đối trong biến Y)
= ----------------------------------------------- (2.19)
(thay đổi tương đối trong biến X)
Nhớ rằng một thay đổi trong log của một con số là một thay đổi tương đối, hoặc
một thay đổi phần trăm, sau khi nhân với 100.
Đặt là một sự thay đổi nhỏ, chúng ta có thể viết phương trình (2.19) như sau:
B2 = Y
X/X (2.20)
Hoặc
Y = B2(X/X) (2.21)
Phương trình (2.21) phát biểu rằng thay đổi tuyệt đối trong Y (= Y) bằng độ
dốc nhân với thay đổi tương đối trong X. Vì vậy, nếu (X/X) thay đổi 0.01 đơn
vị (hoặc 1%), thì thay đổi tuyệt đối của Y là 0.01(B2). Nếu trong một ứng dụng
chúng ta có B2 = 200, thì thay đổi tuyệt đối trong Y là 0.01(200) = 2.
Vì thế, khi chúng ta ước lượng một phương trình như phương trình (2.18), đừng
quên nhân giá trị của hệ số độ dốc ước lượng với 0.01 hoặc (lấy b2 chia cho
100). Nếu bạn không theo quy trình này, bạn có thể rút ra các kết luận sai từ
kết quả hồi quy.
24
Mô hình lin-log đã được sử dụng trong các hàm chi tiêu Engel, tên mô hình
được đặt theo tên nhà thống kê người Đức Ernst Engel (1821 - 1896). Engel
cho rằng “tổng chi tiêu cho lương thực có xu hướng tăng theo cấp số cộng khi
tổng tổng chi tiêu tăng tỷ lệ cấp số nhân13. Một cách khác để thể hiện điều này
là tỷ phần của chi tiêu cho lương thực giảm khi tổng chi tiêu tăng.
Để làm rõ vấn đề này, Table 2.8 là dữ liệu về thực phẩm và nước giải khát
không có nồng độ cồn được tiêu dùng tại nhà (Expfood) và tổng chi tiêu của hộ
gia đình (Expend), cả hai tính bằng đôla năm 1995 của 869 hộ gia đình Mỹ14.
Bảng này có thể được tìm thấy trên trang Web của cuốn sách.
Kết quả hồi quy về tỷ phần chi tiêu cho lương thực (SFDHO) trong tổng chi tiêu
được cho ở Bảng 2.9.
Bảng 2.9: Mô hình lin-log về chi tiêu cho lương thực
13 Câu này trích từ H. Working (1943), Statistical laws of family expenditure, Journal of American Statistical Association, vol. 38, pp. 43-56. 14 Đây là một mẫu ngẫu nhiên từ dữ liệu thu thập khoảng 5000 hộ gia đình trong điều tra bằng phỏng vấn theo quý về chi tiêu của người tiêu dùng được thực hiện bởi Phòng lao động, Cục thống kê Mỹ. Dữ liệu được sử dụng ở đây đã được thảo luận trong Christopher Dougherty, Introduction to Econometrics, 3rd edn, Oxford University Press.
25
Tất cả các hệ số ước lượng đều có ý nghĩa thống kê cao. Giải thích hệ số độ
dốc khoảng – 0.08 là nếu tổng chi tiêu tăng 1%, thì trung bình, tỷ phần chi tiêu
cho lương thực và nước giải khát không có độ cồn giảm khoảng 0.0008 đơn vị,
như vậy kết quả này ủng hộ giả thuyết của Engel. Điều này có thể được thấy rõ
hơn trong Hình 2.2. (Lưu ý: Đừng quên chia hệ số độ dốc cho 100). Nói cách
khác, hệ số độ dốc có thể được giải thích như sau: Nếu tổng chi tiêu tăng 100%,
thì trung bình, tỷ phần của chi tiêu cho lương thực và nước giải khát không có
độ cồn giảm khoảng 0.08 đơn vị.
Hướng dẫn vẽ đồ thị 2.2 trên Eviews:
Quick/Graph … nhập 2 biến LOG(EXPEND) SFDHO
26
.00
.04
.08
.12
.16
.20
.24
.28
.32
.36
.40
.44
.48
.52
.56
.60
.64
.68
.72
.76
8.0 8.3 8.6 8.9 9.2 9.5 9.8 10.2 10.6 11.0 11.4 11.8
LOG(EXPEND)
SF
DH
O
Hình 2.2: SFDHO và log của chi tiêu.
Mặc dù chúng ta xác định một mô hình lin-log phù hợp với dữ liệu, Hình 2.2 cho
thấy mối quan hệ giữa SFDHO và log(EXPEND) dường như dạng phi tuyến. Có
nhiều phương pháp thể hiện các mối quan hệ phi tuyến giữa các biến, như các
mô hình nghịch đảo (reciprocal) hoặc các mô hình hồi quy đa thức (polynomial
regression models), sẽ được thảo luận ngay sau đây.
27
2.5 Các mô hình nghịch đảo
Đôi khi chúng ta gặp phải các tình huống ở đó mối quan hệ giữa biến phụ thuộc
và (các) biến giải thích dạng nghịch đảo, như trong mô hình hồi quy sau đây:
Yi = B1 + B2(1Xi
) + ui (2.22)
Mô hình này là phi tuyến ở X bới vì biến này được đưa vào mô hình một cách
nghịch đảo, nhưng vẫn là mô hình hồi quy tuyến tính bởi vì các tham số, Bs, là
tuyến tính.
Một số tính chất của mô hình này như sau. Khi X tăng vô cùng, thì số hạng
B2(1/Xi) dần về 0 (lưu ý: B2 là một hằng số) và Y fa62n về giá trị giới hạn hoặc
giá trị tiệm cận B1. Hệ số dốc của phương trình (2.22) được cho bởi công thức
sau đây:
dYi
dXi= −B2 (
1
Xi2)
Vì thế, nếu B2 dương, thì độ dốc âm, và nếu B2 âm, thì độ dốc dương.
Ví dụ minh họa: Xem xét lại chi tiêu cho lương thực
Trong phần trước, chúng ta xác định mô hình phù hợp cho mối quan hệ giữa
chi tiêu cho lương thực và tổng chi tiêu là mô hình dạng lin-log. Chúng ta hãy
xem liệu mô hình nghịch đảo cũng có thể phù hợp với dữ liệu này không. Vì vậy
chúng ta ước lượng (Bảng 2.10):
SFDHOi = B1 + B2(1
EXPENDi) + ui (2.23)
28
Bảng 2.10: Mô hình nghịch đảo về chi tiêu cho lương thực.
Giải thích kết quả
Cả hai hệ số hồi quy đều có ý nghĩa thống kê cao, vì các giá trị xác suất p thực
tế bằng 0. Giá trị của hệ số cắt khoảng 0.08 cho biết rằng nếu tổng chi tiêu tăng
lên vô cùng, thì tỷ phần chi tiêu cho lương thực và nước uống không có độ cồn
cuối cùng sẽ tiệm cận về mức 8%. Hệ số độ dốc B2 dương, cho biết rằng tỷ lệ
thay đổi của SFDHO theo tổng chi tiêu sẽ âm. Điều này có thể thấy rõ ràng hơn
trên Hình 2.3.
29
Hướng dẫn vẽ trên Eviews: Quick/Graph … nhập tên biến theo thứ tự EXPEND
SFDHO, …, chọn Scatter, sau đó định dạng lại.
.00
.04
.08
.12
.16
.20
.24
.28
.32
.36
.40
.44
.48
.52
.56
.60
.64
.68
.72
.76
0 12,000 32,000 52,000 72,000 92,000 112,000 136,000
EXPEND
SF
DH
O
Hình 2.3: Tỷ phần chi tiêu cho lương thực trong tổng chi tiêu.
Nếu bạn so sánh Hình 2.2 với Hình 2.3, bạn sẽ thấy rằng chúng tương tự nhau
về mặt hình dáng. Câu hỏi thực tế là: mô hình nào tốt hơn – lin-log hay nghịch
đảo?
Đây là một vấn đề phổ biến trong nghiên cứu thực nghiệm – tức là lực chọn mô
hình phù hợp. Vì cả hai mô hình phù hợp với dữ liệu một cách rất hợp lý, nên
30
rất khó để chúng ta chọn lựa giữa hai mô hình này. Trên cơ sở tiêu chí R2, mô
hình lin-log cho chúng ta giá trị R2 hơi cao hơn, nhưng khác biệt trong hai giá trị
R2 không lớn lắm. Nhân tiện, hãy lưu ý rằng chúng ta có thể so sánh hai giá trị
R2 bởi vì biến phụ thuộc trong hai mô hình là giống nhau.
2.6 Các mô hình hồi quy đa thức
Chúng ta hãy xem xét lại mô hình tuyến tính đã được xem xét ở phương trình
(2.17), trong đó chúng ta hồi quy GDP thực (RGDP) theo biến xu thế, time. Bây
giờ xem xét mô hình sau đây:
RGDPt = A1 + A2time + A3time2 + ut (2.24)
Phương trình (2.24) là một ví dụ của một hàm bậc hai (quadratic function), hoặc
nói chung hơn, một hàm đa thức bậc hai (second-degree polynomial) theo biến
time. Nếu chúng ta đưa thêm time3 vào mô hình, chúng ta sẽ có mô hình đa
thức bậc ba, nghĩa là, lũy thừa cao nhất (highest power) của biến giải thích thể
hiện bậc của mô hình đa thức.
Điểm đầu tiên cần lưu ý về phương trình (2.24) là đó là một mô hình hồi quy
tuyến tính, nghĩa là, tuyến tính ở các tham số, mặc dù biến time đưa vào mô
hình ở cả hai dạng tuyến tính và bậc hai. Thứ hai, các biến time và time2 có
quan hệ hàm số và sẽ tương quan với nhau rất cao. Điều này có gây ra vấn đề
đa cộng tuyến hay không? [Nghĩa là sẽ phá vỡ một trong số các giả định của
mô hình hồi quy tuyến tính cổ điển là không có các mối quan hệ tuyến tính
chính xác (exact linear relations) nào giữa các biến giải thích]. Không, bởi vì
time3 là một hàm phi tuyến của time.
Sử dụng dữ liệu về RGDP, chúng ta có kết quả hồi quy như trong Bảng 2.11.
Thứ nhất, lưu ý rằng tất cả các hệ số ước lượng đều có ý nghĩa thống kê, giả
định rằng các giả định thông thường của các mô hình hồi quy tuyến tính cổ điển
31
đều thỏa mãn. Chúng ta giải thích các kết quả này như thế nào? Trong phương
trình (2.17) chỉ với biết time là biến giải thích, hệ số của biến time là khoảng
186.99 (xem bảng 2.7), cho biết rằng RGDP gia tăng bởi một lượng không đổi
186.99 tỷ đôla một năm.
Bảng 2.11: Mô hình đa thức về GDP của Mỹ, 1960-2007.
Nhưng đối với mô hình đa thức bậc hai, RGDP tăng với một tốc độ tăng dần bởi
vì cả hai hệ số của time và time2 đều dương. Để thấy điều này một cách khác,
đối với mô hình bậc hai được cho ở phương trình (2.24), tốc độ thay đổi của
RGDP được tính như sau:
d(RGDP) / d(time) = A2 + 2A3time (2.25)
Tốc độ thay đổi này dương bởi vì cả A2 và A3 đều dương.
Lưu ý: Vế trái của phương trình này là đạo hàm của RGDP theo biến time.
Sử dụng kết quả trong Bảng 2.11, chúng ta có:
32
d(RGDP) / d(time) = 68.53 + 2(2.42)time (2.26)
= 68.53 + 4.84time
Như phương trình (2.26) cho thấy, tỷ lệ thay đổi của RGDP phụ thuộc vào thời
gian tại đó tỷ lệ thay đổi được tính. Đây là khác biệt lớn so với mô hình xu thế
tuyến tính, phương trình (2.17), cho biết một tỷ lệ thay đổi cố định khoảng 187
tỷ đôla một năm15.
Mô hình log-lin với biến xu thế bậc hai
Thay vì ước lượng phương trình (2.24) giả sử rằng chúng ta ước lượng mô hình
sau đây:
ln RGDPt = B1 + B2t + B3t3 + ut (2.27)
Kết quả hồi quy của mô hình này được cho ở Bảng 2.12.
Bảng 2.12: Mô hình đa thức của log GDP của Mỹ, 1960-2007.
15 Nếu bạn lấy đạo hàm bậc hai phương trình (2.25) theo thời gian, bạn sẽ có được giá trị 4.84. Vì thế nó là tỷ lệ thay đổi của tỷ lệ thay đổi là cố định quan thời gian. (Lưu ý đạo hàm bậc hai hàm ý rằng RGDP tăng với một tốc độ tăng dần).
33
Điều thú vị cần lưu ý rằng trong Bảng 2.11 các hệ số của biến xu thế và xu thế
bình phương đều dương, trong khi đó trong Bảng 2.12 hệ số biến xu thế dương
nhưng hệ số của biến xu thế bình phương âm. Điều này cho thấy rằng mặc dù
tỷ lệ tăng trưởng của RGDP là dương, nhưng tăng với tốc độ giảm dần. Để thấy
rõ hơn, lấy đạo hàm phương trình (2.27) theo thời gian, chúng ta có:
d(ln RGDP) / d(t) = B2 + 2B3t (2.28)16
Nghĩa là,
1
𝑅𝐺𝐷𝑃
𝑑RGDP
𝑡= 𝐵2 + 2𝐵3𝑡 (2.29)
Nhưng vế trái của phương trình này là tỷ lệ tăng trưởng của RGDP.
Tỷ lệ tăng trưởng của RGDP = B2 + 2B3t (2.30)
= 0.0365 – 0.0002t
Như phương trình (2.30) cho thấy, tỷ lệ tăng trưởng của RGDP giảm với mức
0.0002 một năm.
Lưu ý rằng trong phương trình (2.24) chúng ta đang đo lường tỷ lệ thay đổi của
RGDP, nhưng trong phương trình (2.27) chúng ta đang đo lường tỷ lệ tăng
trưởng RGDP. Có nhiều thước đo khác nhau.
2.7 Lực chọn dạng hàm
Một vấn đề thực tế trong việc thực hiện nghiên cứu thực nghiệm là quyết định
dạng hàm của mô hình hồi quy phù hợp trong một tình huống nhất định. Trong
mô hình hồi quy hai biến, sự lựa chọn này thường không khó bởi vì chúng ta
luôn luôn có thể vẽ đồ thị của biến phụ thuộc và biến giải thích, và quyết định
16 Nhớ lại rằng d lnY / Dx = (1/Y)Dy / dX, đó là một thay đổi tương đối trong Y. Nếu nó được nhân với 100, thì đó sẽ là sự thay đổi phần trăm của Y hoặc tỷ lệ tăng trưởng của Y. Điểm cần lưu ý là sự thay đổi trong log của một biến là một sự thay đổi tương đối.
34
dạng hàm theo cảm nhận trực quan. Nhưng đối với các mô hình hồi quy bội, thì
sự lựa chọn này không còn dễ dàng nữa, vì rất khó để vẽ một đồ thị đa chiều.
Vì thế, trong thực tế, chúng ta cần biết các tính chất của các mô hình mà chúng
ta đã thảo luận ở chương này. Một cách để hoàn thành việc lựa chọn dạng hàm
là phải xem xét các hệ số độ dốc và hệ số co giãn của các mô hình khác nhau.
Một tóm tắt được trình bày ở Bảng 2.13.
Bảng 2.13: Tóm tắt các dạng hàm.
Nếu có nhiều hơn một biến giải thích, bạn có thể tính các hệ số độ dốc và hệ
số co giãn riêng phần, giữ nguyên các biến khác trong mô hình17.
[Diễn giãi: Trong thực tế, một mô hình hồi quy thường là kết hợp của nhiều dạng
hàm tùy vào mối quan hệ giữa biến phụ thuộc và từ biến giải thích].
17 Ví dụ, đối với mô hình Y = B1 + B2X + B3X2, hệ số độ dốc là dy / dx = B2 + 2B3X và hệ số co giãn là (dy / dx)(X / Y) = (B2 + 2B3X)(X / Y) và hệ số co giãn này phụ thuộc vào các giá trị của X và Y.
35
2.8 So sánh các mô hình tuyến tính và phi tuyến
Một vấn đề thường gặp trong nghiên cứu là lựa chọn giữa các mô hình tuyến
tính và log-tuyến tính18. Xem xét thảo luận của chúng ta về hàm sản xuất cho
nền kinh tế Mỹ. Phương trình (2.4) là một ví dụ về hàm sản xuất log-tuyến tính,
hàm sản xuất Cobb-Douglas, trong khi phương trình (2.6) là một ví dụ về hàm
sản xuất tuyến tính. Mô hình nào tốt hơn đối với dữ liệu trong Table 2.1? Chúng
ta đã trình bày kết quả hồi quy của các mô hình này trong các Bảng 2.2 và 2.3.
Cả hai mô hình rất phù hợp với dữ liệu. Nhưng chúng ta không thể so sánh một
cách trực tiếp giữa các mô hình, bởi vì các biến phụ thuộc trong hai mô hình là
khác nhau. Nhưng một biến đổi đơn giản về biến phụ thuộc có thể làm cho hai
mô hình có thể so sánh được với nhau. Chúng ta thực hiện theo các bước sau
đây:
• Bước 1: Tính trung bình hình học (geometric mean, GM) của biến phụ
thuộc; gọi nó là Q*19. Đối với dữ liệu trong Bảng 2.1, GM của biến sản
lượng là e16.941139 = 22842628. [Eviews: @gmean(tên biến)].
• Bước 2: Chi Qi cho Q* để có: (Qi / Q*) = Q𝑖.
• Bước 3: Ước lượng phương trình (2.4) sử dụng Q𝑖 thay cho Qi như là biến
phụ thuộc (tức là, sử dụ ln Q𝑖 làm biến phụ thuộc).
• Bước 4: Ước lượng phương trình (2.6) sử dụng Q𝑖 làm biến phụ thuộc
thay vì Qi.
Các biến phụ thuộc được chuyển đổi vì thế bây giờ có thể so sánh được với
nhau. Chạy các mô hình hồi quy với dữ liệu chuyển đổi, thu được tổng bình
phương phần dư (RSS) (ví dụ RSS1 cho mô hình tuyến tính và RSS2 cho mô
hình log-tuyến tính) và chọn mô hình có RSS thấp hơn. Để tiết kệm không gian,
18 Trong mô hình log-tuyến tính, biến phụ thuộc ở lạng log, nhưng biến giải thích có thể ở dạng log hoặc dạng tuyến tính. 19 Trung bình hình học của Y1 và Y2 là (Y1Y2)1/2; và GM của Y1, Y2, và Y3 là (Y1Y2Y3)1/3; và …
36
chúng ta sẽ không trình bày lại kết quả hồi quy này, mà chỉ trình bày các thống
kê sau đây:
RSS
Mô hình log-tuyến tính 3.4155
Mô hình tuyến tính 3.6519
37
Vì RSS của mô hình log-tuyến tính thấp hơn, nên chúng ta có thể chọn mô hình
này thay vì mô hình tuyến tính, mặc dù cả hai RSS khá gần nhau. Nhưng chúng
ta có sẵn một kiểm định chính thức hơn.
Nếu giả thuyết H0 cho rằng cả hai mô hình phù hợp như nhau với dữ liệu, chúng
ta có thể tính20:
Trong đó, RSS1 là RSS từ mô hình tuyến tính và RSS2 là RSS từ mô hình log-
tuyến tính. Nếu giá trị lamda tính toán lớn hơn giá trị Chi bình phương phên
phán với 1 bậc tự do, chúng ta có thể bác bỏ giá thuyết H0 và kết luận rằng hàm
sản xuất log-tuyến tính là mô hình tốt hơn. Tuy nhiên, nếu giá trị lamda tính toán
nhỏ hơn giá trị Chi bình phương phê phán, chúng ta không thể bác bỏ giả thuyết
H0, và như vậy cả hai mô hình phù hợp như nhau với dữ liệu.
Đối với ví dụ của chúng ta, giá trị lamda tính toán = 74.2827. Giá trị Chi bình
phương phê phán ở mức ý nghĩa 5% cho 1 bậc tự do là 3.841. Vì giá trị Chi bình
phương tính toán là 74.2827 lớn hơn nhiêu so với giá trị Chi bình phương phên
phán, nên chúng ta kết luận rằng mô hình log-tuyến tính thể hiện tốt hơn mô
hình tuyến tính21.
Vì mô hình log-tuyến tính dễ dàng giải thích theo các hệ số co giãn của lao
động và vốn, và hiệu suất theo quy mô, nên chúng ta có thể chọn mô hình log-
tuyến tính trong các ứng dụng thực tế.
20 Xem Gary Koop, Introduction to Econometrics, John Wiley & Sons Ltd, England, 2008, pp. 114 – 15. 21 Nếu RSS2 > RSS1, thì chúng ta để RSS2 trên tử số của công thức (2.26) và để RSS1 dưới mẫu. Giả thuyết H0 ở đây là cả hai mô hình đều thể hiện tốt như nhau. Nếu giả thuyết này bị bác bỏ, thì mô hình tuyến tính có thể được thích hơn mô hình log-tuyến tính.
38
2.9 Hồi quy với các biến chuẩn hóa
Trong nhiều ví dụ khác nhau mà chúng ta đã thảo luận, thì biến phụ thuộc và
các biến giải thích không nhất thiết phải được thể hiện theo cùng đơn vị đo
lường. Vì thế, hàm sản xuất Cobb-Douglas đã được thảo luận thì sản lượng, lao
động và vốn được đo lường bằng các đơn vị khác nhau. Điều này ảnh hưởng
đến việc giải thích các hệ số hồi hồi quy, bởi vì độ lớn của các hệ số hồi quy
(riêng) phụ thuộc vào đơn vị đo lường của biến đó.
Nhưng vấn đề này có thể tránh được nếu chúng ta thể hiện tất cả các biến dưới
dạng chuẩn hóa (standardized). Dưới dạng chuẩn hóa, chúng ta thể hiện giá trị
của mỗi biến như độ lệch so với trung bình và chia độ lệch đó cho độ lệch chuẩn
của biến đó, chẳng hạn như sau đây:
Trong đó, SY và SX là các độ lệch chuẩn mẫu và Y ngang và X ngang là các
trung bình mẫu của Y và X. Y* và X* được gọi là các biến chuẩn hóa
(standardized variables).
Dễ dàng chứng minh rằng giá trị trung bình của một biến chuẩn hóa luôn luôn
bằng 0 và giá trị độ lệch chuẩn luôn luôn bằng 1, không cần biết các giá trị trung
bình và độ lệch chuẩn gốc của nó là bao nhiêu. Cũng rất thú vị để lưu ý rằng
các biến chuẩn hóa được gọi là các biến chứa các con số thuần túy (tức là
không có đơn vị, unit free numbers). Đây là bởi vì tử số và mẫu số của các biến
chuẩn hóa được đo lường bằng đơn vị đo lường giống nhau.
Nếu bạn chạy hồi quy sau đây:
39
Bạn sẽ thấy rằng b1* bằng 022.
Bảng 2.14: Hàm sản xuất tuyến tính sử dụng các biến chuẩn hóa.
22 Lưu ý rằng: b1* = Y − b2
∗ X∗, nhưng các giá trị trung bình của các biến chuẩn hóa đều bằng 0, nên b1* luôn bằng
0.
40
Các hệ số hồi quy có dấu sao (starred regression coefficients) được gọi là các
hệ số beta (beta coefficients) hoặc các hệ số chuẩn hóa (standardized
coefficients), trong khi đó các hệ số hồi quy của các biến chưa chuẩn hóa được
gọi là các hệ số không chuẩn hóa (unstandardized coefficients).
Hệ số độ dốc trong hồi quy này được giải thích như sau: nếu biến giải thích
chuẩn hóa tăng lên một đơn vị độ lệch chuẩn, thì trung bình, biến phụ thuộc
chuẩn hóa tăng B2* đơn vị độ lệch chuẩn. Điểm cần nhớ là, không giống như
hồi quy OLS thông thường, chúng ta đo lường tác động của một biến giải thích
không theo đơn vị gốc trong đó X và Y được đo lường, mà theo các đơn vị độ
lệch chuẩn.
Nên nói thêm rằng nếu chúng ta có nhiều hơn một biến giải thích, thì chúng ta
có thể chuẩn hóa tất cả các biến giải thích. Để minh họa, chúng ta xem lại ví dụ
về hàm sản xuất của Mỹ đã được xem xét trước đây (xem Bảng 2.3) và ước
lượng lại bằng cách sử dụng các biến sản lượng, lao động và vốn chuẩn hóa.
Kết quả ước lượng được trình bày ở Bảng 2.14.
Như được kỳ vọng, hệ số cắt là bằng không. Hai biến chuẩn hóa đều có tác
động có ý nghĩ lên sản lượng (chuẩn hóa). Giải thích hệ số 0.4 như sau nếu
nhập lượng lao động tăng một đơn vị độ lệch chuẩn, thì giá trị trung bình của
sản lượng tăng thêm 0.4 độ lệch chuẩn, khi giữa nguyên các yếu tố khác. Giải
thích hệ số của vốn 0.6 là nếu nhập lượng vốn tăng thêm một đơn vị độ lệch
chuẩn, thì trung bình, sản lượng tăng thêm 0.6 đơn vị độ lệch chuẩn. Nói một
cách so sánh, thì vốn có tác động lên sản lượng nhiều hơn lao động. Các hệ số
số hồi quy trong Bảng 2.3, ngược lại, là các hệ số không chuẩn hóa.
Nếu bạn nhìn kết quả trong Bảng 2.3, bạn có thể nghĩ rằng lao động có tác
động lên sản lượng tương đối nhiều hơn so với vốn. Nhưng do lao động và vốn
được đo bằng các đơn vị đo lường khác nhau, nên kết luận như thế có thể sẽ
sai lầm. Nhưng trong hồi quy với các biến chuẩn hóa, chúng ta có thể dễ dàng
41
đánh giá tầm quan trọng tương đối của các biến giải thích khác nhau, bởi vì nhờ
chuẩn hóa mà chúng ta đặt tất cả các biến giải thích ở một vị trí ngang bằng
nhau.
Nhưng lưu ý rằng dù chúng ta sử dụng các biến chuẩn hóa hay không chuẩn
hóa, thù các giá trị R2, t, và F vẫn giữ nguyên, vì thế không ảnh hưởng đến việc
suy diễn thống kê.
2.10 Các thước đo mức độ phù hợp
Nếu bạn nhìn vào các kết quả in ra từ máy tính khác nhau trong các bảng trước
đây, bạn sẽ thấy rằng có nhiều thước đo “mức độ phù hợp’’ của mô hình ước
lượng; đó là, mô hình giải thích sự biến thiên trong biến phụ thuộc tốt như thế
nào. Các thước đo này bao gồm: (1) hệ số xác định, R2; (2) R2 điều chỉnh,
thường được ký hiệu bằng R2; (3) tiêu chính thông tin Akaike; và (4) tiêu chí
thông tin Schwarz.
1. Thước đo R2
Như được lưu ý trước đây, thước đo này đo lường tỷ lệ biến thiên trong biến phụ
thuộc được giải thích bởi các biến giải thích. Giá trị của nó năm giữa 0 và 1. 0
cho biết hầu như không phù hợp và 1 là phù hợp hoàn hảo. R2 thường nằm giữa
hai giá trị này; càng gần 0 thì càng ít phù hợp; càng gần 1 thì càng phù hợp.
Một nhược điểm của thước đo này là khi càng đưa nhiều biến giải thích vào mô
hình thì chúng ta nói chung có thể làm tăng giá trị R2. Điều này là bởi vì R2 là
một hàm tăng theo số biến giải thích trong mô hình.
Mặc dù chúng ta định nghĩa R2 như tỷ số của ESS trên TSS, nhưng nó cũng có
thể được tính hệ số tương quan bình phương giữa giá trị Y thực tế và giá trị Y
ước lượng (tức Y) từ mô hình hồi quy, ở đây Y là biến phụ thuộc, nghĩa là:
42
Trong đó:
[Diễn giải: R2 chỉ dùng để so sánh giữa các mô hình có biến phụ thuộc giống
nhau. Nếu khác, thì chúng ta cần phải thực hiện như ở mục 2.8].
2. R2 điều chỉnh
Chúng ta cũng đã thảo luận R2 điều chỉnh (= R2). R2 điều chỉnh được sử dụng
để so sánh hai hoặc nhiều hơn hai mô hình có cùng biến phụ thuộc [Diễn giải:
Cũng như R2], nhưng có số biến giải thích khác nhau. Vì R2 điều chỉnh thường
nhỏ hơn R2 không điều chỉnh, nên dường như R2 điều chỉnh gán một mức phạt
cho việc đưa nhiều hơn số biến giải thích vào mô hình. [Công thức điều chỉnh
đã được trình bày ở chương 1].
3. Tiêu chí thông tin Akaike (AIC)
Giống như R2 điều chỉnh, tiêu chí AIC đưa một mức phạt khắt nghiệt hơn cho
việc đưa nhiều biến giải thích vào mô hình. Ở dạng logarít, AIC được định nghĩa
như sau:
Trong đó, RSS là tổng bình phương phần dư và 2k/n là nhân tố phạt do đưa
nhiều biến giải thích vào mô hình.
43
Tiêu chí AIC hữu ích khi so sánh hai hoặc nhiều mô hình. Mô hình với AIC thấp
nhất thường là mô hình được chọn. Tiêu chí AIC cũng được sử dụng để đánh
giá thành tích dự báo trong và ngoài mẫu của một mô hình hồi quy.
4. Tiêu chí thông tin Schwarz (SIC)
Đây là một cách khác của tiêu chí AIC, và dạng logarít của nó có thể được thể
hiện như sau:
Nhân tố phạt ở đây là [(k/n)ln(n)], khắt nghiệt hơn so với tiêu chí AIC. Giống
AIC, giá trị SIC thấp hơn thì mô hình tốt hơn. Cũng như AIC, SIC có thể được
sử dụng để so sánh thành tích dự báo trong và ngoài mẫu của một mô hình hồi
quy.
Cũng nên nói thêm là ý tưởng đằng sau việc đưa nhân tố phạt là ‘nguyên tắc tri
thức tối thiểu’ (Occam’s razor, tức là mô hình càng đơn giản thì càng xác đáng),
theo nguyên tắc này ‘những mô tả nên được giữ càng đơn giản càng có thể
miễn chứng minh là hợp lý’. Đây cũng được biết như nguyên tắc dao cạo.
Trên cơ sở nguyên tắc này, đâu là một tiêu chí tốt hơn, AIC hay SIC? Hầu như
thường thì hai tiêu chí này lựa chọn mô hình giống nhau, nhưng không phải
luôn luôn như thế. Về mặt lý thuyết, AIC có thể được ưa thích hơn, nhưng trên
thực tế bạn có thể chọn tiêu chính SIC, vì nó có thể chọn một mô hình đơn giản
hơn, khi giữ nguyên các yếu tố khác không đổi23. Trong kết quả hồi quy, Eviews
trình bày cả hai tiêu chí này.
Nếu bạn so sánh mô hình xu thế tuyến tính ở Bảng 2.7 với mô hình xu thế bậc
hai ở Bảng 2.12, bạn sẽ thấy rằng đối với mô hình xu thế tuyến tính giá trị Akaike
23 Thảo luận chi tiết hơn về ưu điểm tương đối của các tiêu chí lựa chọn mô hình khác nhau, có thể xem Francis X. Diebold, Elements of Forecasting, 3rd edn, Thomson/South-Western Publishers, 2004, pp. 87-90.
44
là 15.0 và đối với mô hình xu thế bậc hai là -4.23. Ở đây bạn sẽ chọn mô hình
xu thế bậc hai. [Diễn giải: Tôi nghĩ Gujarati bị nhầm, vì hai biến phụ thuộc ở hai
mô hình này khác nhau: RGDP và ln(RGDP). Với biến phụ thuộc dạng log, thì
giá trị AIC hoặc SIC là âm]. Trên cơ sở tiêu chí Schwarz, thì những giá trị này
là 15,17 cho mô hình xu thế tuyến tính và -4.12 cho mô hình xu thế bậc hai.
Một lần nữa, bạn sẽ chọn mô hình xu thế bậc hai trên cơ sở tiêu chí này. [Diễn
giải: Như trên, hai biến phụ thuộc khác nhau, cần cẩn thận]. Tuy nhiên, đối với
mô hình xu thế bậc hai, giá trị AIC (-4.23) âm nhiều hơn giá trị SIC (-4.12), tức
là AIC hơi ưu thế hơn trong việc lựa chọn.
45
Điều thú vị cần lưu ý là đối với mô hình hồi quy tuyến tính, cả hai tiêu chí có liên
quan đến kiểm định F như sau: ‘Đối với một mẫu đủ lớn, việc so sánh các giá
trị AIC tương ứng một kiểm định F với giá trị phê phán là 2 và SIC tương ứng
một kiểm định F với giá trị phê phán là log(n)’24.
2.11 Tóm tắt và kết luận
Trong chương này chúng ta đã xem xét nhiều dạng mô hình hồi quy tuyến tính
khác nhau – đó là, các mô hình tuyến tính ở tham số hoặc có thể được chuyển
sang tuyến tính ở tham số với những chuyển đổi phù hợp. Mỗi mô hình hữu ích
trong một số tình huống. Trong một số ứng dụng, nhiều hơn một mô hình có
24 Xem Christiaan Heij, Paul de Boer, Philip Hans Franses, Teun Kloek, and Herman K. van Dijk, Econometrics Methods with Applications in Business and Economics, Oxford University Press, Oxford, UK, 2004, p. 280.
46
thể phù hợp với dữ liệu. Chúng ta đã thảo luận các đặc điểm riêng của mỗi mô
hình về khía cạnh các hệ số độ dốc và hệ số co giãn.
Khi so sánh hai hoặc nhiều mô hình trên cơ sở R2 chúng ta đã chỉ ra rằng biến
phụ thuộc trong các mô hình này phải giống nhau. Cụ thể, chúng ta đã thảo
luận việc lựa chọn giữa một mô hình tuyến tính và log-tuyến tính, hai dạng mô
hình được sử dụng phổ biến trong nghiên cứu.
Mặc dù chúng ta đã thảo luận các mô hình khác nhau, giới hạn trong các mô
hình hồi quy tuyến tính hai hoặc ba biến cho các mục đích mô tả, nhưng chúng
ta có thể dễ dàng mở rộng cho các mô hình hồi quy với bất kỳ số biến giải thích
nào25. Chúng ta cũng có thể có các mô hình trong đó một số biến giải thích ở
dạng tuyến tính và một số ở dạng log-tuyến tính. [Diễn giải: Tức thực tế thì
chúng ta sử dụng các mô hình kết hợp nhiều dạng hàm trong một mô hình, tùy
vào dữ liệu mà chúng ta có].
Chúng ta đã thảo luận ngắn gọn vai trò của các biến chuẩn hóa trong phân tích
hồi quy. Vì một biến chuẩn hóa có trung bình bằng 0 và độ lệch chuẩn bằng 1,
nên nó dễ dàng hơn cho chúng ta so sánh ảnh hưởng tương đối của các biến
giải thích khác nhau lên biến phụ thuộc.
Chúng ta có thể đánh giá một mô hình dựa vào các dấu kỳ vọng của các hệ số
hồi quy, mức ý nghĩa thống kê của chúng dựa trên giá trị t của các hệ số ước
lượng, hoặc kiểm định F nếu chúng ta quan tâm đến mức ý nghĩa kết hợp của
hai hay nhiều biến. Chúng ta có thể đánh giá mức độ phù hợp chung của một
mô hình dựa vào R2. Nếu chúng ta so sánh hai hoặc nhiều mô hình hồi quy,
chúng ta có thể sử dụng R2 điều chỉnh, tiêu chí AIC, hoặc SIC.
25 Để xử lý các mô hình hồi quy đa biến, chúng ta cần sử dụng đại số ma trận.
47
Trong chương này, chúng ta cũng thảo luận làm thế nào để đưa các ràng buộc
tuyến tính khi ước lượng các mô hình hồi quy. Những ràng buộc như thế thường
được đề xuất bởi lý thuyết kinh tế./.
top related