các phương pháp thống kê mô tả cho d ệu chéo · ngày nay, sự sẵn có ... thì...

41
1 Các phương pháp thống kê mô tả cho dữ liệu chéo Hirschberg, Lu, and Lye (The Australian Economic Review, Vol. 38, No.3, 2005). Người dịch: Phùng Thanh Bình (8/9/2017) 1. Giới thiệu Phân tích kinh tế lượng thường cho ra các kết quả định lượng có tính chất chuyên ngành cao. Tuy nhiên, như câu thần chú cổ xưa (mantra) của dân lập trình vi tính cho rằng, GIGO – ‘rác vào thì rác ra’ (garbage in garbage out) – áp dụng ở đây đối với bản chất của dữ liệu được sử dụng cho việc phân tích. Vì thế khảo sát dữ liệu được thực hiện trước khi phân tích bằng các mô hình định lượng trên máy tính là điều rất quan trọng. Hơn nữa, để diễn giải câu ngạn ngữ (adage), ‘một biểu đồ đáng giá bằng cả ngàn con số’ – ánh mắt con người có thể phân tích dữ liệu ở định dạng trực quan (visual format) tốt hơn so với chăm chú nhìn vào các bảng số liệu. Để phục vụ cả hai mục đích này, điều quan trọng là chúng ta phải hiểu các phương pháp đồ thị có thể được sử dụng như thế nào để giúp ta kiểm tra và xem xét dữ liệu một cách cẩn thận trước khi thực hiện phân tích kinh tế lượng. Các máy vẽ dùng bút bằng điện toán (computer-driven pen plotters) là một trong số những bộ đệm lệnh ngoại vi ra (output peripheral) đầu tiên được gắn kết phía sau các máy tính trong kỷ nguyên của hệ thống máy tính lớn (mainframe systems). Trước khi có các máy vi tính, phần lớn việc trình bày bằng đồ thị của dữ liệu được thao tác bằng tay. Ngày nay, sự sẵn có phổ biến của các màn hình đồ họa, các máy in la-de và các phần mềm như MS Excel đã làm cho việc tạo ra các trình chiếu dạng đồ thị của dữ liệu được thực hiện một cách tự động. Mục

Upload: phungdiep

Post on 29-Jul-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

1

Các phương pháp thống kê mô tả cho dữ liệu chéo

Hirschberg, Lu, and Lye

(The Australian Economic Review, Vol. 38, No.3, 2005).

Người dịch: Phùng Thanh Bình (8/9/2017)

1. Giới thiệu

Phân tích kinh tế lượng thường cho ra các kết quả định lượng có tính chất

chuyên ngành cao. Tuy nhiên, như câu thần chú cổ xưa (mantra) của dân lập

trình vi tính cho rằng, GIGO – ‘rác vào thì rác ra’ (garbage in garbage out) – áp

dụng ở đây đối với bản chất của dữ liệu được sử dụng cho việc phân tích. Vì

thế khảo sát dữ liệu được thực hiện trước khi phân tích bằng các mô hình định

lượng trên máy tính là điều rất quan trọng. Hơn nữa, để diễn giải câu ngạn ngữ

(adage), ‘một biểu đồ đáng giá bằng cả ngàn con số’ – ánh mắt con người có

thể phân tích dữ liệu ở định dạng trực quan (visual format) tốt hơn so với chăm

chú nhìn vào các bảng số liệu. Để phục vụ cả hai mục đích này, điều quan trọng

là chúng ta phải hiểu các phương pháp đồ thị có thể được sử dụng như thế nào

để giúp ta kiểm tra và xem xét dữ liệu một cách cẩn thận trước khi thực hiện

phân tích kinh tế lượng.

Các máy vẽ dùng bút bằng điện toán (computer-driven pen plotters) là một trong

số những bộ đệm lệnh ngoại vi ra (output peripheral) đầu tiên được gắn kết phía

sau các máy tính trong kỷ nguyên của hệ thống máy tính lớn (mainframe

systems). Trước khi có các máy vi tính, phần lớn việc trình bày bằng đồ thị của

dữ liệu được thao tác bằng tay. Ngày nay, sự sẵn có phổ biến của các màn hình

đồ họa, các máy in la-de và các phần mềm như MS Excel đã làm cho việc tạo

ra các trình chiếu dạng đồ thị của dữ liệu được thực hiện một cách tự động. Mục

Page 2: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

2

đích của bài báo này là xem xét loại biểu đồ nào nên được sử dụng cho mục

đích gì và làm rõ một số phần mềm phổ biến nhất có thể tạo ra các hình ảnh

dạng đồ thị như thế nào để bổ trợ việc giải thích các phân tích thống kê.

Để giải thích tại sao việc khảo sát dữ liệu là rất quan trọng chúng tôi đưa ra hai

ví dụ đơn giản khi ta muốn chạy một mô hình hồi quy. Thứ nhất, hãy xem xét

các kết quả hồi quy được trình bày trong Bảng 1. Dựa vào các giá trị trong bảng

này, thì có vẽ đó là một mô hình rất tốt với giá trị thống kê t của biến giải thích

có ý nghĩa cao và một giá trị R2 cao chỉ ra rằng mô hình này đã giải thích phần

lớn biến thiên trong y.

Tuy nhiên, trong Hình 1 thì biểu đồ phân tán (scatter plot) của dữ liệu cho thấy

dữ liệu rõ ràng rơi vào hai phân nhóm khác nhau, tức là nó mang diện mạo tựa

một biểu đồ ‘tạ đôi’ (dumbbell plot) như ở Hình 2. Lưu ý là nếu dữ liệu trong mỗi

phân nhóm phù hợp cho các mô hình riêng lẻ, thì các giá trị R2 thu được từ các

hồi quy riêng lẻ là gần bằng 0.

Page 3: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

3

Các kết quả hồi quy cho ví dụ thứ hai được trình bày trong Bảng 2. Các kết quả

này có vẻ cho ta thấy rằng không tồn tại mối quan hệ có ý nghĩa thống kê giữa

y và x và mô hình hồi quy có giá trị R2 rất thấp. Với các kết quả như thế này thì

đó thường là trường hợp mà người ta sẽ giả sử rằng biến này không có mối

quan hệ gì với biến kia.

Page 4: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

4

Tuy nhiên, một đồ thì phân tán của x và y trong Hình 3 lại cho thấy có một mối

quan hệ rất rõ ràng giữa chúng. Để ước lượng các hệ số của mối quan hệ này

có lẽ đòi hỏi một mô hình phi tuyến (non-linearity).

Nhiều tác giả phát hiện các ví dụ tương tự như hai ví dụ vừa được trình bày ở

đây. Hai ví dụ đáng để đề cập đến là của Anscombe (1973) và Leamer (1994).

Trong nghiên cứu của Anscombe (1973) có bốn bộ dữ liệu, mỗi bộ gồm 11 điểm

dữ liệu của y và x được đem ra xem xét. Đối với mỗi trong bốn bộ dữ liệu thì

các kết quả giống nhau từ hồi quy OLS, bao gồm các hệ số ước lượng và các

giá trị R2 thu được. Tuy nhiên, khi dữ liệu được vẽ cho mỗi trong bốn bộ dữ liệu,

thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường (outliers) và

các mối quan hệ phi tuyến có thể được tìm thấy. Leamer (1994, p. xiii) trình bày

một ví dụ trong đó một hàm tiêu dùng (consumption function) được ước lượng

bằng cách sử dụng dữ liệu giả định về chi tiêu và thu nhập. Các kết quả hồi quy

OLS trông rất tốt với một giá trị R2 cao và một hệ số ước lượng có dấu đúng với

kỳ vọng. Tuy nhiên, biểu đồ phân tán của dữ liệu cho thấy dữ liệu ‘đánh vần

từng chữ một’ H E L P. [Người dịch: Xem spell out trong yeuanhvan.com,

American Idioms, Bài 12].

Page 5: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

5

Xem xét kỹ lưỡng dữ liệu trước khi chạy hồi quy được khuyến khích mạnh mẽ

trong nhiều giáo trình kinh tế lượng. Ví dụ, xem Kennedy (2003, p. 480), Koop

(2000, pp. 12-20), Pindyck và Rubinfeld (1998, p. 45), Greene (2003, pp. 878-

81), và Griffiths, Carter Hill và Judge (1993, p. 22). Tuy nhiên, trong nhiều

trường hợp việc thảo luận chỉ giới hạn ở biểu đồ tần suất và biểu đồ phân tán.

Mục tiêu của bài báo này là cung cấp một hướng dẫn chi tiết cho sinh viên về

các phương pháp hữu ích để tóm tắt và khảo sát dữ liệu chéo ở dạng dữ liệu

thô (raw data) trước khi cố gắng áp dụng các kỹ thuật kinh tế lượng phức tạp.

Để minh họa các kỹ thuật đã được trình bày, chúng tôi sử dụng dữ liệu chi tiết

của hệ thống các siêu thị Dominick’s Finer Foods. Một dự án nghiên cứu tại đại

học Chicago đã làm sẵn bộ dữ liệu chi tiết cho hệ thống siêu thị Dominick đặt

tại thủ phủ Chicago. Chúng tôi sử dụng dữ liệu này để tạo ra doanh số trung

bình hàng ngày theo gian hàng [Người dịch: Từ ‘department’ ở bài này nghĩa là

các gian hàng chuyên bán các mặt hàng khác nhau như rau quả, thực phẩm,

chăm sóc sức khỏe, vân vân] cho tất cả 84 cửa hàng, vì thế thì bộ dữ liệu tương

đối đầy đủ - ít nhất được thu thập trong ba năm đối với mỗi cửa hàng. Ngoài dữ

liệu về doanh số của mỗi cửa hàng, bộ dữ liệu cũng bao gồm các thông tin khác

Page 6: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

6

được thu thập từ tổng điều tra của Mỹ về dân số trong khu vực lân cận của mỗi

cửa hàng và các thông tin marketing liên quan đến bản chất của người tiêu dùng

tại mỗi cửa hàng.

Nhiều phương pháp đơn biến khác nhau được dùng để phân tích các chuỗi riêng

lẻ được thảo luận trước [Người dịch: Nhóm tác giả sử dụng ‘series’ có vẻ không

thích hợp vì chủ đề bài viết là dữ liệu chéo; mà ‘series’ thường dùng để ám chỉ

dữ liệu chuỗi thời gian. Cho nên tôi xin phép dịch từ ‘series’ thành ‘biến’, chứ

không phải là ‘chuỗi’]. Trong mục 2, chúng tôi định nghĩa một số thống kê mô

tả dùng để tóm tắt bằng các đại lượng số về các tính chất của một biến. Ở mục

3, chúng tôi giải thích các cách trình bày biểu đồ về bản chất phân phối của một

biến có thể được tạo ra như thế nào. Biểu đồ đầu tiên trong số các biểu đồ phân

phối là biểu đồ hộp (box plot). Đây là một tóm tắt rất hữu ích dạng đồ thị về hình

dáng chung của phân phối dữ liệu. Phương pháp tiếp theo là biểu đồ tần suất

sẽ cung cấp chi tiết hơn. Ở đây chúng tôi giới thiệu phương pháp mà qua đó

chúng ta có thể so sánh phân phối của một biến với phân phối chuẩn bằng cách

sử dụng biểu đồ phủ ngoài (overplay). Tiếp theo biểu đồ tần suất chúng tôi giới

thiệu biểu đồ ước lượng mật độ lỗi (kernel density estimate) [Người dịch: Từ đây

về sau tôi gọi chung là ‘ước lượng mật độ kernel’] hoặc biểu đồ tần suất được

làm trơn (smoothed histogram). Loại biểu đồ này cung cấp ước lượng chính xác

hơn về phân phối của một biến liên tục.

Ước lượng hàm mật độ cho một biến ngẫu nhiên liên tục thường là chưa đủ. Bởi

vì phân phối chuẩn có vai trò như một mô hình mà nhiều kiểm định thống kê

phải dựa vào nó, cho nên việc xác định phân phối của một biến như thế nào so

với một phân phối đã biết, chẳng hạn như phân phối chuẩn, là điều có ý nghĩa

quan trọng. Biểu đồ Q-Q và biểu đồ P-P cung cấp các phương tiện để so sánh

phân phối của các biến đang được quan tâm với một phân phối chuẩn, đồng

Page 7: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

7

thời cũng nhận dạng ra các quan sát không thích hợp và các kỹ thuật này được

trình bày ở mục 4.

Mục 5 và 6 thảo luận các kỹ thuật vẽ biểu đồ trong phân tích dữ liệu đa biến

(multivariate analysis). Mối quan hệ giữa hai biến được tập trung ở mục 5 và

việc sử dụng hệ số tương quan và biểu đồ phân tán sẽ được xem xét. Trong khi

hệ số tương quan chỉ cho biết có tồn tại hay không một quan hệ tuyến tính, thì

biểu đồ phân tán có thể làm rõ hơn liệu có tồn tại hay không mối quan hệ phi

tuyến giữa các biến và các quan sát bất thường. Mục 6 thảo luận hai kỹ thuật

vẽ biểu đồ mà có thể được sử dụng để xem xét một nhóm các biến một cách

đồng thời. Biểu đồ hộp cạnh-kề-cạnh (side by side box plot) trình bày phân phối

của một nhóm các biến sao cho các phân phối và các tính chất của chúng có

thể được so sánh với nhau giữa các biến. Biểu đồ phân tán kiểu ma trận (matrix

scatter plot) là một cách thể hiện tương tự như ma trân hệ số tương quan

(correlation coefficient matrix) dùng cho việc trình bày bằng đồ thị và đó là một

phương pháp hữu ích để lần tìm các quan sát đặc biệt qua một nhóm các biến.

Một mục đích sử dụng quan trọng các biểu đồ là để tìm ra các dạng mô hình

(patterns) thích hợp với dữ liệu. Vì thế các biểu đồ cần phải rõ ràng và được

trình bày hợp lý và điều này thường yêu cầu ta phải thay đổi các lựa chọn mặc

định có sẵn trong các chương trình đồ họa của máy tính. Trong mục 7, chúng

tôi minh họa các bước liên quan đến việc thay đổi tác động trực quan của một

biểu đồ bằng cách sử dụng các lựa chọn mặc định trong Excel. Mục 8 thảo luận

các phần mềm thống kê với trọng tâm là Eviews và SPSS dùng để vẽ biểu đồ

trong kinh tế lượng. Mục 9 là phần kết luận của bài báo.

2. Thống kê mô tả

Một số thống kê mô tả (descriptive statistics) được sử dụng để tóm tắt các tính

chất của một biến x với n quan sát trên ba phương diện: vị trí (location), độ phân

tán (dispersion), và hình dáng của phân phối xác suất (shape). Tính chất phổ

Page 8: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

8

biến nhất là trung bình (mean). ‘Mean’ là một thuật ngữ thống kê về giá trị trung

bình của một biến và được định nghĩa như sau:

�̅� = 1

𝑛∑ 𝑥𝑖

𝑛𝑖=1 (1)

Trong đó, xi là các quan sát và n là số quan sát trong mẫu. Một đại lượng khác

của các thước đo định tâm (central tendency) là trung vị (median). Khi số quan

sát n là số chẵn thì trung vị được định nghĩa như sau:

𝑚𝑒𝑑𝑖𝑎𝑛 = 𝑥[(𝑛/2)−1)] + 𝑥[(𝑛/2)+1]

2 (2)

và nếu số quan n là số lẻ thì trung vị được định nghĩa như sau:

median = x[(n + 1)/2] (3)

Đối các phân phối đối xứng, thì giá trị của mean và median bằng nhau. Độ phân

tán thường được đo bằng độ lệch chuẩn s (standard deviation) hoặc phương sai

s2 (variance). Độ lệch chuẩn được định nghĩa như sau:

𝑠 = √∑ (𝑥𝑖−�̅�)2𝑛

𝑖=1

(𝑛−1) (4)

Hình dáng về phân phối của các quan sát cũng thường được quan tâm. Các đại

lượng đo lường thường được báo cáo là độ nghiêng (skewness) [Người dịch:

Còn được gọi là thước đo đối xứng]:

𝑠𝑘𝑒𝑤𝑛𝑒𝑠𝑠 = ∑ (𝑥𝑖−�̅�)3𝑛

𝑖=1

𝑠3(𝑛−1) (5)

Và độ nhọn (kurtosis):

𝑘𝑢𝑟𝑡𝑜𝑠𝑖𝑠 = ∑ (𝑥𝑖−�̅�)4𝑛

𝑖=1

𝑠4(𝑛−1) (6)

Đối với một phân phối đối xứng, thì giá trị chuẩn (benchmark) cho skewness là

0 và đối với một biến ngẫu nhiên theo phân phối chuẩn thì giá trị chuẩn cho

kurtosis là 3. Nếu kurtosis lớn hơn 3, thì phân phối sẽ nhọn hơn (peaked) so với

Page 9: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

9

phân phối chuẩn; và nếu kurtosis nhỏ hơn 3, thì phân phối sẽ phẳng hơn (flat)

so với phân phối chuẩn.

Kiểm định Jarque-Bera là một thống kê được sử dụng phổ biến để kiểm định

xem một biến có theo phân phối chuẩn hay không. Thống kê kiểm định này là

một thước đo kết hợp (combination) của skewness và kurtosis của một biến với

các giá trị được hàm ý rằng dữ liệu được tạo ra từ một phân phối chuẩn và được

tính như sau:

𝐽𝐵 = 𝑛 [𝑠𝑘𝑒𝑤𝑛𝑒𝑠𝑠2

6+

(𝑘𝑢𝑟𝑡𝑜𝑠𝑖𝑠−3)2

24] (7)

Dưới giả thuyết không (null hypothesis) của một phân phối chuẩn thì thống kê

Jarque – Bera đối với các mẫu lớn được cho là sẽ theo phân phối 2 với 2 bậc

tự do. [Người dịch: Khi đọc bạn hãy tự hỏi tại sao là phân phối 2 và tại sao bậc

tự do là 2; nếu chưa biết thì hãy tìm đọc chứ đừng để kiến thức hờ hửng lướt

qua cuộc đời mình].

Một số các thống kê kê khác cũng có thể được tính đến, chẳng hạn như giá trị

nhỏ nhất (minimum), giá trị lớn nhất (maximum), các phân vị (quartiles), và

khoảng (range) của dữ liệu. [Người dịch: Hãy xem Chương 3, giáo trình Thống

kê trong kinh tế và kinh doanh của UEH nếu bạn muốn tìm hiểu thêm về các

đại lượng này]. Bảng 3 liệt kê một số thống kê mô tả về doanh số trung bình

hàng ngày của các siêu thị từ bộ dữ liệu của hệ thống siêu thị Dominick [Người

dịch: Biến Produce Sales gồm doanh số từ trái cây và rau quả, đây chỉ là một

doanh số thành phần trong tổng doanh số hàng ngày của mỗi cửa hàng trong

hệ thống siêu thị Dominick; xem Bảng 4 để biết thêm các thành phần khác trong

tổng doanh số].

Page 10: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

10

Từ Bảng 3, các giá trị mean và median là rất giống nhau. Giá trị tính toán của

kiểm định Jarque – Bera là 38.03. Giá trị của 2 với 2 bậc tự do tại mức ý nghĩa

1% là 9.21; điều này chỉ ra rằng ta có thể bác bỏ giả thuyết không cho rằng

doanh số trung bình hàng ngày có phân phối chuẩn. Tuy nhiên, thống kê này

không cung cấp nhiều thông tin, và chúng ta cần phải tạo ra các biểu đồ để xem

xét các hàm ý của điểm định này một cách sâu sắc hơn.

3. Các phân phối

Có một số các phương pháp hữu ích để mô tả các phân phối (distributions) của

một biến. Trong phần này, chúng tôi tóm tắt cách sử dụng biểu đồ hộp trình bày

dạng đồ thị các phân vị của dữ liệu; biểu đồ tần suất cung cấp hình dáng gần

đúng của hàm mật độ; và biểu đồ mật độ (density plot), được xem như một

phiên bản được làm trơn của biểu đồ tần suất.

3.1 Biểu đồ hộp

Biểu đồ hộp cung cấp một dạng trình bày tóm tắt về phân phối của dữ liệu

(Chambers et al. 1983) bằng cách cho ta thấy trên đồ thị các phân vị của dữ

liệu. Biểu đồ hộp cho biết trung tâm của phân phối (tức median hoặc phân vị

thứ 50, Q0.50), độ phân tán (spread) của toàn bộ dữ liệu (tức độ dài của hộp, là

Page 11: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

11

khoảng cách từ phân vị thứ 25 (Q0.25) đến phân vị thứ 75 (Q0.75)), và các đuôi

(tails) của phân phối được trải ra như thế nào (tức độ dài của các ‘râu’ so với

hai đáy của chiếc hộp hình chữ nhật). Các giá trị lớn hơn các giới hạn [Người

dịch: Chắc hàm ý giới hạn trên, upper limit, nghĩa là các giá trị bất thường] cũng

được biểu diễn trong biểu đồ này. Ngoài ra, một số chương trình vẽ biểu đồ hộp

cũng đưa thêm các lựa chọn cho phép ta xác định vị trí trung bình của dữ liệu

và khoảng tin cậy 95% bao quanh giá trị trung bình.

Trong Hình 4, một biểu đồ hộp minh họa cho biến doanh số Produce Sales.

Đỉnh và đáy của hình chữ nhật thể hiện các phân vị trên (Q0.75) và dưới (Q0.25)

của dữ liệu và đường trung tâm bên trong hình chữ nhật là trung vị có giá trị là

$5576. Các phân vị trên và dưới được tìm bằng cách sắp xếp dữ liệu [Người

dịch: Sắp xếp dữ liệu theo thứ tự từ thấp đến cao] và tìm các giá trị giới hạn

25% phía trên và 25% thấp nhất [Người dịch: Ý nói Q0.75 và Q0.25]. Vì thế, độ trải

giữa (IQR – interquartile range) là khoảng giữa các phân vị trên và dưới: IQR =

Q0.75 – Q0.25; đối với biến doanh số Produce Sales, thì IQR = $2529.

Page 12: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

12

Các đường mở rộng từ hai phía đáy của hộp (đôi khi gọi là hai râu) đến chổ

được gọi là ‘giá trị liền kề trên’ (upper adjacent value) và ‘giá trị liền kề dưới’

(lower adjacent value). Giá trị liền kề trên (xua) được định nghĩa hoặc là quan

sát có giá trị lớn nhất [max(x)] nếu quan sát này nhỏ hơn hoặc bằng phân vị trên

(upper quartile) cộng 1.5 lần khoảng trải giữa hoặc xua = min[Q0.75 + 1.5IQR,

max(x)]. Đối với biến doanh số Produce Sales, thì xua = $8359. Giá trị liền kề

dưới (xla) được định nghĩa hoặc là quan sát có giá trị nhỏ nhất [min(x)] nếu quan

sát này lớn hơn hoặc bằng phân vị dưới (lower quartile) trừ 1.5 lần khoảng trải

giữa hoặc xla = max[Q0.25 - 1.5IQR, min(x)]. Vì thế, đối với biến doanh số

Produce Sales, nó chính là giá trị nhỏ nhất, $2084.

Bất cứ các điểm dữ liệu nào nằm ngoài khoảng của hai giá trị liền kề được gọi

là các giá trị ngoại lai (outside values) hoặc cá biết, bất thường (outliers), và

được vẽ như là một điểm riêng lẻ. Trong trường hợp biến doanh số Produce

Sales, có hai giá trị ngoại lai, các quan sát thứ 62 và 84, chúng lần lượt là giá

trị doanh số của cửa hàng 109 ($11.895), và giá trị doanh số của cửa hàng 137

($12.661). Nếu có các giá trị ngoại lai, thì có lẽ cần phải quay lại nguồn dữ liệu

để xác minh rằng những giá trị này là hợp lý hay không. Trong ví dụ của ta, hai

giá trị cực lớn này là của hai cửa hàng lớn, cả hai có hơn $94.000 trong tổng

doanh số trung bình hàng ngày (Total Average Daily Sales) trong khi giá trị

trung bình của tổng doanh số trung bình hàng ngày trong mẫu chỉ là $56.046.

Chiều rộng của biểu đồ hộp là tùy ý (arbitrary) có nghĩa là nhiều biểu đồ hộp có

thể được đặt cạnh nhau để cho phép chúng ta so sánh giữa các nhóm dữ liệu.

Chúng ta sẽ xem xét việc sử dụng biểu đồ hộp kỹ hơn ở mục 6.1 khi bàn về các

kỹ thuật vẽ biểu đồ đa biến (multivariate plotting techniques).

3.2 Biểu đồ tần suất

Một cách khác để tóm tắt một phân phối dữ liệu là biểu đồ tần suất hoặc biểu

đồ mật độ cho loại dữ liệu có các giá trị rời rạc (discrete values). Dữ liệu được

Page 13: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

13

chia thành nhiều khoảng có cùng độ dài, số điểm được tính trong mỗi khoảng

và được vẽ như các thanh trong một biểu đồ tần suất (Chambers et al. 1983).

Trục tung (vertical axis) cho biết tỷ lệ của các quan sát trong mỗi thanh và chiều

cao tương đối của các thanh thể hiện mật độ tương đối của số trường hợp

(cases) trong các khoảng. Đối với biến doanh số Produce Sales, ta nhận thấy

không có cửa hàng nào có doanh số trung bình trong khoảng $2000 và có hai

cửa hàng có doanh số lớn hơn $9000, như được trình bày ở Hình 5. Doanh số

của hầu hết các cửa hàng là giữa $3000 đến $9000.

Page 14: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

14

Biểu đồ tần suất được sử dụng phổ biến bởi vì sự đơn giản của nó. Tuy nhiên,

các biểu đồ tần suất có thể đưa ra nhiều ấn tưởng trực quan rất khác nhau vì

sự lựa chọn mang tính tùy ý (arbitrary choice) về số lượng và vị trí của các

khoảng. Đối với cùng một dữ liệu, biểu đồ tần suất ở Hình 5 có 22 khoảng và

biểu đồ tần suất ở Hình 6 có sáu khoảng. Càng có nhiều khoảng, thì biểu đồ

tần suất càng cho thấy chi tiết hơn. Tuy nhiên, bạn phải luôn luôn để ý rằng các

chi tiết này có thể không phải là tính chất của dữ liệu mà chỉ là các đồ tạo tác

(artefacts) được tạo ra bởi vị trí của các khoảng. Điều này nên được đưa vào

xem xét khi chọn số lượng các khoảng.

Biều đồ tần suất được đặt chồng lên với một đường cong chuẩn (normal curve)

có thể giúp phát hiện ra các giá trị bất thường (Henry 1995). Đường cong chuẩn

là mật độ của một biến ngẫu nhiên có phân phối chuẩn với cùng giá trị trung

bình và độ lệch chuẩn được ước lượng từ mẫu dữ liệu [Trong ví dụ của ta, thì

mean = 5574 và standard deviation = 1822.53]. Đường cong chuẩn này được

định nghĩa theo công thức ước lượng mật độ chuẩn (estimated normal density)

như dưới đây:

𝑓𝑁(𝑧) = 1

√2𝜋�̂�2𝑒𝑥𝑝 [

−(𝑧− �̅�)2

2𝑠2] (8)

ở đây �̅� = 5574, s2 = (1822.53)2, z là giá trị tại đó hàm mật độ được đánh giá và

x là dữ liệu trong mẫu. Ở mục 4, chúng ta sẽ thảo luận các phương pháp chính

thức hơn để thực hiện sự so sánh này với các ước lượng mật độ khác.

Các mẫu dữ liệu thực có một tỷ lệ nhỏ các quan sát nằm ngoài khoảng điển

hình của dữ liệu (typical range of data) là điều bình thường. Biểu đồ tần suất

được minh họa ở Hình 5 cho thấy hai giá trị ngoại lai từ cửa hàng 109 và 137

như đã được nhận diện ở biểu đồ hộp trong Hình 4. Điều này cho thấy rằng biểu

đồ hôp có lẽ hữu ích hơn biểu đồ tần suất trong việc nhận dạng vị trí của các

giá trị bất thường.

Page 15: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

15

3.3 Ước lượng mật độ kernel

Để ước lượng một mật độ cần phải xây dựng một mô hình xác suất của quy

trình ngẫu nhiên tạo ra các quan sát từ một mẫu dữ liệu liên tục. Một phương

pháp đã được đề cập ở trên liên quan đến giả định rằng dữ liệu được phân phối

theo một hàm mật độ đã được xác định rõ (well-defined density function), chẳng

hạn như hàm phân phối chuẩn, và các tham số (parameters) của hàm mật độ

được ước lượng bằng các thống kê được tính toán từ dữ liệu [Người dịch: Xem

công thức (8); các thống kê bao gồm trung bình mẫu, độ lệch chuẩn mẫu, và

phương sai mẫu]. Bằng cách thế các giá trị thống kê này vào biểu thức (8) ta

có một công thức chính xác về mật độ với giả định rằng dữ liệu thực sự được

phân phối theo một phân phối cụ thể. Thật không may, như ta thấy ở Hình 5 và

6, biểu đồ tần suất của dữ liệu không cho thấy một phân phối như phân phối

chuẩn là phù hợp. Trong mục 4, chúng ta thảo luận các phương pháp chính

thức để so sánh phân phối của một mẫu với các phân phối được hàm ý theo

nhiều phân phối được giả định khác nhau.

Biểu đồ tần suất là một trong những phương pháp phổ biến nhất của ước lượng

mật độ mà không dựa vào giả định về một hàm mật độ cụ thể nào. Đối với dữ

liệu chỉ là một tập hợp xác định các giá trị rời rạc, thì biểu đồ tần suất là phương

pháp chính (primary method). Tuy nhiên, như đã giới thiệu ở trên, khi áp dụng

các biểu đồ tần suất cho dữ liệu liên tục, thì một số vấn đề có thể phát sinh.

Thứ nhất, các biểu đồ tần suất, không giống quá trình tạo dữ liệu (data-

generating process), là không liên tục; chúng giả định rằng tất cả các giá trị

trong một khoảng có cùng xác suất xảy ra. Thứ hai, để có các biểu đồ tần suất

trông khá khác nhau cho cùng một dữ liệu chỉ đơn giản bằng việc thay đổi độ

dài của khoảng và thay đổi các vị trí của chúng là điều rất khả dĩ.

Một cách tiếp cận khác cũng được áp dụng phổ biến là sử dụng ước lượng mật

độ kernel. Kernel là một hàm có trọng số (weighting function) được xác định cho

Page 16: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

16

mỗi điểm tại đó mật độ được đánh giá. Hàm ước lượng mật độ kernel được định

nghĩa như sau:

𝑓𝐾(𝑧) = 1

𝑛ℎ∑ 𝐾𝑛

𝑖=1 ((𝑧− 𝑥𝑖)

ℎ) (9)

Trong đó, x1, …, xn là các quan sát trong mẫu, 𝑓𝐾(𝑧) là ký hiệu hàm mật độ ước

lượng, z là giá trị tại đó mật độ được đánh giá, h là bề rộng (bandwidth) [cũng

được gọi là tham số trơn (smoothing parameter) hoặc bề rộng cửa số (window

width)] và K(•) là hàm kernel. z thường là một giá trị trong khoảng các giá trị của

mẫu nhưng cũng có thể ngoài khoảng giá trị của mẫu; nhớ lại ở biểu thức (8)

rằng chúng ta định nghĩa mật độ chuẩn được xác định cho tất cả các giá trị từ -

đến + . Bandwidth h tương tự như bề rộng của các khoảng trong biểu đồ

tần suất và dùng để xác định độ trơn của ước lượng mật độ. Hàm kernel là một

hàm có trọng số và trọng số thường được chọn sao cho trọng số thấp hơn được

gán cho các quan sát ở xa z so với các quan sát ở gần. Nghĩa là, khoảng cách

từ z, được xác định cho một hàm kernel đối xứng là giá trị tuyệt đối của chênh

lệch giữa z và xi, tức |z - xi|, có giá trị càng lớn khi xi càng gần z, và giá trị càng

nhỏ khi khoảng cách chênh lệch càng xa. Khi ta sử dụng biểu thức (8), phân

phối chuẩn, để tính xấp xỉ mật độ, chúng ta giảm trọng số (downweight) mật độ

của các quan sát càng xa so với trung bình của mẫu. Chúng ta cũng chia

khoảng cách từ trung bình theo phương sai làm cho mật độ ước lượng có hình

dáng phẳng hơn giống như cách mà các giá trị bandwidth càng lớn thì hàm ý

một ước lượng mật độ trơn hơn.

Để thực hiện ước lượng kernel, một hệ số trơn h và hàm kernel K(•) phải được

chọn. Thông thường thì việc chọn K(•) sẽ là một hàm xác định một hàm mật độ

xác suất đơn đỉnh đối xứng (symmetric unimodal probability density function)

và vì thế sẽ dẫn đến bản thân 𝑓𝐾(𝑧) cũng là một hàm mật độ xác suất và sẽ kế

thừa tất cả các tính chất liên tục và có thể lấy đạo hàm của hàm kernel K(•).

Page 17: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

17

Bạn có thể nghĩ biểu đồ tần suất như một dạng đặc biệt của ước lượng mật độ

kernel khi mà mật độ chỉ được đánh giá tại những điểm giữa của các khoảng

và bandwidth bằng một nữa số lượng khoảng (interval size). Ta định nghĩa

kernel như K(ui) = h.I(|ui| ≥ 1), ở đây ui = (1/h)(xi – z) và I(•) là một hàm chỉ báo

(indicator function) có giá trị bằng 1 nếu phát biểu (argument) là đúng và bằng

0 nếu phát biểu là sai. Điều này có nghĩa là bất kỳ khi nào một quan sát thỏa

mãn bất đẳng thức được xác định: |xi – z| ≤ h thì nó được tính vào khoảng với

điểm giữa tại z. [Người dịch: Đúng ra thì K(ui) = h.I(|ui| ≤ 1). Phải không?]. Mật

độ ước lượng của biểu đồ tần suất được định nghĩa theo dạng ước lượng mật

độ kernel như sau:

𝑓𝐻(𝑧) = 1

𝑛ℎ∑ ℎ𝐼𝑛

𝑖=1 (|𝑢𝑖| ≤ 1)

= 1

𝑛ℎ∑ 𝐼𝑛

𝑖=1 (|𝑥𝑖 − 𝑧| ≤ ℎ) (10)

Một hàm kernel được áp dụng phổ biến là hàm Epanechnikov (Epanechnikov

1996) có dạng như sau:

𝐾(𝑢𝑖) = 3

4(1 − 𝑢𝑖

2)𝐼(|𝑢𝑖| ≤ 1) (11)

Page 18: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

18

Ở đây, ta lại sử dụng ui = (1/h)(xi - z). Lưu ý rằng các quan sát này thỏa mãn

tiêu chí rằng |ui| ≤ 1 được đưa vào trong tính toán ước lượng mật độ của z. Một

đồ thị của hàm Epanechnikov được cho ở Hình 7. Trong hình này, khi z xi,

thì ui 0 và K(ui) đạt giá trị lớn nhất.

Có nhiều ước lượng kernel khác đã được đề xuất; ví dụ, biweight kernel:

𝐾(𝑢𝑖) = 15

16(1 − 𝑢𝑖

2)𝐼(|𝑢𝑖| ≤ 1) (12)

Và uniform kernel:

𝐾(𝑢) = 1

2𝐼(|𝑢𝑖| ≤ 1) (13)

Chúng ta cũng có thể đặt ước lượng mật độ kernel trên cơ sở dạng hàm mật độ

chuẩn bằng cách sử dụng hàm kernel chuẩn như sau:

𝐾(𝑢) = 1

√2𝜋𝑒𝑥𝑝[−0.5𝑢2] (14)

Mặc dù mật độ chuẩn có một dạng được biết rõ, nhưng nó có một nhược điểm

tiềm năng mà các quan sát bất thường trong mẫu có thể ảnh hưởng đến ước

lượng mật độ cho một giá trị nhất định thậm chí khi chúng có khoảng cách rất

xa. Nó cũng có tính chất rằng 𝑓𝐾(𝑧) 0, z R hoặc rằng mật độ được ước

lượng không bao giờ bằng không mà không cần biết nó được đánh giá ở đâu

trên đường thực.

Chuyên khảo (monograph) của Silverman (1996) là một tài liệu tham khảo quan

trọng cho việc thảo luận chi tiết hơn về các hàm này. Silverman bình luận rằng

trên cơ sở các thước đo hiệu quả (efficiency measures), thì không có sự khác

biệt nào giữa các kernel khác nhau và đặt sự lựa chọn kernel trên cơ sở dễ tính

toán nhất là điều khá hợp lý.

Sự lựa chọn bandwidth h mang tính quyết định trong ước lượng mật độ vì nó

quy định độ trơn của ước lượng mật độ. Giá trị h càng lớn thì hàm 𝑓𝐾(𝑧) càng

Page 19: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

19

trơn hơn. Có nhiều cách khác nhau để chọn h. Một khả năng là vẽ đồ thị một số

giá trị của 𝑓𝐾(𝑧) theo các giá trị khác nhau của h và sau đó chọn ước lượng nào

thỏa mãn kỳ vọng trước đây về mật độ. Như việc chọn số lượng các khoảng

(interval size/number) trong biểu đồ tần suất, việc chọn bandwidth nên được

thực hiện sao cho sự phức tạp của dữ liệu không bị che dấu bởi một giá trị h

quá lớn, mà không làm cho các đồ tạo tác trong một mẫu cụ thể thay đổi các

tính chất nổi bật. Silverman (1996) cung cấp một công thức chung mà ông cho

rằng sẽ phù hợp với nhiều trường hợp dựa trên khoảng trải giữa (IQR), độ lệch

chuẩn ước lượng (s), và cỡ mẫu (n):

h = 0.9n-1/5min(s, IQR/1.34) (15)

Hình 8 trình bày một biểu đồ tần suất của biến Produce Sales. Độ rộng của các

khoảng được cho là 1000. Với vị trí và quy mô của các khoảng cho trước này,

chúng ta có một dấu hiệu về hàm xác suất có hai đỉnh và một xác suất nhỏ của

các giá trị rất lớn.

Ở Hình 9, ước lượng mật độ kernel được vẽ bằng phần mềm Eviews sử dụng

hàm Epanechnikov kernel và một bandwidth (h) là 1000. So sánh hai biểu đồ

cho thấy rằng ước lượng mật độ kernel trơn hơn nhiều so với biểu đồ tần suất

mặc dù cả hai đều cho thấy các đặc điểm tương tự. Tuy nhiên, xác suất tạo ra

Page 20: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

20

một giá trị trong khoảng kết hợp (intermodal range) dường như lớn hơn từ ước

lượng mật độ kernel so với biểu đồ tần suất. Khi làm việc với các hàm ước lượng

mật độ bạn phải nhớ rằng trục tung, không giống như biểu đồ tần suất, không

đo lường xác suất. Bởi vì đây là những hàm mật độ cho dữ liệu liên tục, nên xác

suất của các giá trị chỉ có thể được xác định bằng diện tích dưới các hàm này

cho một khoảng giá trị cụ thể. Vì thế, các đơn vị đo lường của một biến đang

quan tâm sẽ ảnh hưởng các giá trị trên trục tung.

Hình 10 vẽ một số ước lượng mật độ kernel cho biến Produce Sales sử dụng

các bandwidth khác nhau kể cả h = 1488.1 là một giá trị tự động được tạo ra

bằng cách sử dụng công thức (15). Lưu ý rằng, khi bandwidth càng lớn thì ước

lượng mật độ càng trở nên trơn hơn và đặc biệt là hai đỉnh và điểm dốc gù

(hump) ở phía đuôi biến mất. Vì thế, khi làm trơn thì điều cần thiết là hãy cẩn

thận rằng thông tin quan trọng bị loại bỏ từ kết quả ước lượng mật độ.

Một vấn đề khác trong ước lượng các mật độ là vị trí (các z) tại đó ước lượng

mật độ được đánh giá. Thường thì các điểm được chọn để đánh giá là các giá

trị có khoảng cách bằng nhau (evenly spaced values) trong mẫu. Lưu ý rằng,

Page 21: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

21

nếu ta sử dụng một hàm kernel mà không bị giới hạn bằng không bởi hàm chỉ

báo như trong trường hợp của phân phối chuẩn, thì có thể ước lượng mật độ

kernel chỉ ra một xác suất để có các quan sát lớn hơn hoặc nhỏ hơn các giới

hạn của mẫu. Điều này cũng có thể là trường hợp khi biến ngẫu nhiên có một

giá trị giới hạn chỉ có thể là số dương. Nói chung, càng nhiều điểm mà tại đó

ước lượng mật độ được đánh giá thì ước lượng càng trơn hơn. Trong Hình 11,

đường có dấu chấm trình bày ước lượng mật độ kernel được xây dựng bằng

cách đánh giá mật độ chỉ tại 10 điểm, trong khi đó đường liên tục trình bày ước

lượng mật độ kernel khi mật độ được xây dựng sử dụng 100 điểm.

Ước lượng các hàm mật độ cho dữ liệu liên tục đã trở nên dễ dàng hơn nhờ sự

phát triển các chương trình điện toán chẳng hạn như phần mềm Eviews. Bên

cạnh các sử dụng đồ thị của các ước lượng này, bạn cũng có thể sử dụng các

chương trình để có được các giá trị của hàm mật độ 𝑓𝐾(𝑧) tại mỗi giá trị z.

Page 22: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

22

4. Đánh giá các giả định của phân phối

Như đã lưu ý ở trên, một cách khác cho phép dữ liệu của một mẫu bộc lộ mật

độ của dữ liệu là phải giả định một phân phối đã được xác định rõ cho quá trình

tạo số liệu. Như đã thấy ở biểu thức (8), trung bình và độ lệch chuẩn của mẫu

có thể được sử dụng cùng với giả định hàm mật độ chuẩn để tạo ra một ước

lượng mật độ cho một mẫu cụ thể. Trong phần này, chúng tôi thảo luận nhiều

phương pháp đồ thị khác nhau để so sánh phân phối của một mẫu với các phân

phối khác. Chúng có thể được sử dụng để so sánh phân phối của một mẫu cụ

thể với một mẫu khác hoặc chúng có thể được sử dụng để so sánh phân phối

của một mẫu với một phân phối cụ thể chẳng hạn như phân phối chuẩn.

4.1 Các biểu đồ Q-Q

Các biểu đồ Q-Q thường được gọi các biểu đồ điểm phân vị - điểm phân vị lý

thuyết (theoretical quantile – quantile plots) hoặc các biểu đồ xác suất

(Chambers et al. 1983). Một điểm phân vị cụ thể, ví dụ như điểm phân vị 0.85,

của một tập hợp dữ liệu được định nghĩa là một con số trên phạm vị dữ liệu chia

dữ liệu thành hai nhóm sao cho 85% ở dưới và 15% ở trên con số đó. Một

phương pháp truyền thống để tìm ra các điểm phân vị hoặc phân phối tích lũy

thực nghiệm là lấy một mẫu các quan sát x1, x2, …., xn và sắp xếp dữ liệu từ

thấp đến cao, thu được dữ liệu đẵ được sắp xếp x(1), x(2), …., x(n). Các phân vị

Q(pi) sau đó được định nghĩa là:

𝑝𝑖 = 1

𝑛(𝑖 −

1

2) i = 1 đến n (16)

Điều này có nghĩa rằng nếu một mẫu quy mô n thì giá trị npi của mẫu khi sắp

xếp từ cao xuống thấp là Qpi của dữ liệu. Ví dụ, nếu n = 120, Q0.1 = x(12) (tức

quan sát thứ 12), nếu n = 500, thì Q0.05 = x(25) và vân vân. Vì thế, các điểm

phân vị có thể được xác định đơn giản bằng cách sắp xếp dữ liệu.

Page 23: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

23

Biểu đồ Q-Q được xây dựng bằng cách vẽ các điểm phân vị của dữ liệu mẫu

theo các điểm phân vị tương ứng của một phân phối khác đã được xác định bởi

một phân phối cụ thể hoặc một tập dữ liệu khác. Biểu đồ này được sử dụng phổ

biến để xác định xem phân phối của dữ liệu mẫu có khớp (match) với một phân

phối cho trước hay không, phân phối này có thể là bất kỳ phân phối nào trong

số các phân phối kiểm định (test distribution) [chẳng hạn như phân phối chuẩn,

phân phối log chuẩn (lognormal), phân phố t, và phân phối đều]. Vì vậy, trên

một trục của biểu đồ (trục hoành) là xác suất tích lũy thực nghiệm dựa trên dữ

liệu được sắp xếp của mẫu và trên một trục khác (trục tung) là xác suất tích dũy

dự đoán nếu như dữ liệu được tạo ra bởi một thống kê kiểm định dựa trên các

tham số của phân phối như được ước lượng từ dữ liệu mẫu. Nếu dữ liệu được

tạo ra bởi một phân phối kiểm định, thì các điểm được vẽ trên biểu đồ phải nằm

dọc trên đường 45 độ từ gốc tọa độ. Các độ lệch so với đường 45 độ chỉ ra nơi

mà phân phối thực nghiệp không khớp với phân phối kiểm định. Nếu các độ

lệch ở trên đường 45 độ, thì phân phối thực nghiệm có một số lượng lớn tập

trung ở đây hơn so với phân phối kiểm định dự đoán. Nếu các độ lệch nằm ở

dưới đường 45 độ, thì phân phối kiểm định dự đoán rằng các giá trị này có một

xác suất lớn hơn được quan sát.

Từ Hình 12 bạn có thể thấy những quan sát lệch so với đường chéo trong biểu

đồ Q-Q và nhận diện ra các trường hợp ở đó dữ liệu không phù hợp với phân

phối kiểm định. Trong trường hợp này, ta vẽ một biểu đồ Q-Q của doanh số

Produce Sales (tạo ra bằng phần mềm SPSS) so với phân phối kiểm định được

xác định là phân phối chuẩn. Hai điểm được nhận diện ở Hình 4 được nhận diện

ở đây rằng chúng không nhất quán với các giả định rằng mẫu được tạo ra bởi

một phân phối chuẩn. Ngoài các quan sát này, phần còn lại của dữ liệu không

có khác gì so với bạn kỳ vọng từ dữ liệu được phân phối chuẩn ngoại trừ tại

đuôi trái của dữ liệu phân phối chuẩn có thể tạo ra nhiều dữ liệu hơn trong phần

Page 24: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

24

thấp hơn của dữ liệu và đuôi phải của dữ liệu dường như có nhiều hơn so với

mẫu theo phân phối chuẩn tương đương.

4.2 Các biểu đồ P-P

Các biểu đồ P-P rất giống các biểu đồ Q-Q; khác biệt duy nhất là các giá trị

được chuyển sang các xác suất tích lũy tương ứng thay vì liệt kê như các giá trị

của biến ngẫu nhiên. Nghĩa là, đối với mẫu được sắp xếp các quan sát từ nhỏ

nhất đến lớn nhất, x(1), …, x(n), một xác suất tích lũy được định nghĩa như sau:

Prob[x ≤ x(i)] = i/n (17)

Các giá trị xác suất này sau đó được vẽ với xác suất tích lũy của bất kỳ một

trong số các phân phối kiểm định. Nếu biến được chọn khớp với phân phối cho

trước, thì tất cả các điểm sẽ nằm trên đường 45 độ từ gốc tọa độ. Lại cũng như

Page 25: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

25

biểu đồ Q-Q, những sai chệch so với đường 45 độ cho ta thông tin về phân phối

của biến được chọn khác biệt như thế nào so với phân phối kiểm định.

Hình 13 là một biểu đồ P-P tương ứng với biểu đồ Q-Q ở Hình 12 (được tạo ra

bởi phần mềm SPSS). Lưu ý rằng sự thay đổi tỷ lệ của dữ liệu có nghĩa là hai

điểm dữ liệu bất thường bây giờ được thể hiện bằng hai quan sát được dự đoán

bởi phân phối chuẩn là có xác suất bằng 1. Theo cách giải thích ngược so với

biểu đồ Q-Q, các điểm được vẽ ở trên đường 45 độ chỉ ra rằng xác suất xuất

hiện của chúng trong phân phối chuẩn là cao hơn so với chúng thực sự xảy ra

và các điểm bên dưới đường 45 độ có một xác suất dự đoán cao hơn so với

chúng thực sự xảy ra.

Page 26: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

26

5. Phân tích dữ liệu hai chiều

Các biểu đồ hộp, biểu đồ tần suất, ước lượng mật độ kernel, biểu đồ Q-Q, và

biểu đồ P-P tất cả đều là các kỹ thuật hữu ích để mô tả hành vi của một biến

riêng lẻ. Trong phần này, các phương pháp được sử dụng để xem xét các mối

quan hệ theo cặp của các biến sẽ được thảo luận. Chúng ta xem xét các hệ số

tương quan và các bản sao bằng đồ thị của chúng – các biểu đồ phân tán (cũng

được biết như biểu đồ XY).

5.1 Hệ số tương quan

Hệ số tương quan (correlation coefficient) là một thống kê phổ biến nhất được

sử dụng để lượng hóa mối quan hệ giữa hai biến x và y. Nó được định nghĩa

như sau:

𝑟 = ∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)𝑛

𝑖=1

√[∑ (𝑥𝑖 − �̅�)2𝑛𝑖=1 ∑ (𝑦𝑖 − �̅�)2𝑛

𝑖=1 ] (18)

Trong đó, �̅� và �̅� là các trung bình mẫu gồm n quan sát của các biến x và y. Giá

trị r nằm giữa – 1 đến + 1, và đo lường mối quan hệ tuyến tính giữa x và y. Nếu

r = 0, thì không có mối quan hệ tuyến tính nào; nếu r = 1, thì có mối quan hệ

tuyến tính dương hoàn hảo; và nếu r = - 1, thì có mối quan hệ tuyến tính âm

hoàn hảo. Hệ số tương quan tương ứng về mối quan hệ giữa doanh số Produce

Sales và tổng doanh số trung bình Total Average Daily Sales [Người dịch: Bao

gồm toàn bộ doanh số từ các gian hàng, trong đó doanh số từ gian hàng bán

trái cây và rau quả (Produce Sales) là một thành phần quan trọng; xem Bảng

4] là 0.95, điều này cho thấy một mối quan hệ mạnh. Ta cũng có thể thấy rằng

hồi quy hai biến đơn giản có mối quan hệ rất gần với khái niệm tương quan.

Thống kê R2 là thống kê chỉ ra mức độ phù hợp của hồi quy bằng với bình

phương của hệ số tương quan giữa biến phụ thuộc và biến độc lập [Người dịch:

Thật ra là bình phương của hệ số tương quan giữa biến phụ thuộc và ước lượng

của biến phụ thuộc].

Page 27: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

27

5.2 Biểu đồ phân tán

Một biểu đồ phân tán đơn giản là một đồ thị vẽ một biến ở trục hoành theo một

biến khác ở trục tung. Đó là một phương pháp hữu ích để phân tích mối quan

hệ giữa hai biến. Ví dụ, nó có thể làm rõ một mối quan hệ phi tuyến giữa hai

biến hoặc nó có thể cho thấy có tồn tại các quan sát bất thường hay không. Một

mở rộng của biểu đồ phân tán đơn giản cũng bao gồm trong đồ thị đường hồi

quy có từ ước lượng OLS của hai biến.

Trong Hình 14 biểu đồ phân tán của Produce Sales và Total Average Daily

Sales được minh họa. Từ hình này, ta có thể thấy có mối quan hệ dương giữa

Produce Sales và Total Average Daily Sales. Cũng trong hình này một số quan

sát được nêu bậc lên tương ứng với các quan sát có tiềm năng là các quan sát

bất thường. Cụ thể, hai trong số quan sát này là các quan sát được làm rõ trong

biểu đồ Q-Q và biểu đồ hộp cho biến Produce Sales. Vì thế, hai cửa hàng tương

ứng với các quan sát này có doanh số Produce sales cao và tổng doanh số

Page 28: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

28

trung bình hàng ngày Total Average Daily Sales cao. Điều này có thể chỉ ra

rằng đối với hai cửa hàng này, doanh số Produce Sales thực sự là một thành

phốn lớn trong tổng doanh số của họ. Lưu ý, loại quan hệ được chỉ ra trong

Hình 1 thì không hiện diện trong trường hợp này, vì thế chúng ta có thể kết luận

rằng mặc dù hệ số tương quan cao, nhưng đó không phải là do tồn tại từ cái gọi

là ảnh hưởng ‘tạ đôi’.

Để giải thích tại sao các biểu đồ phân tán cung cấp thêm thông tin, chúng ta

xem xét thêm hai biểu đồ phân tán ở Hình 15. Trong hai trường hợp này, các

hệ số tương quan giữa x và y là khoảng 0.7, nhưng các biểu đồ phân tán cho

thấy các mối quan hệ rất khác nhau giữa các biến. Vì thế mối quan hệ giữa

chúng là không được thiết lập bằng hệ số tương quan tốt như bằng biểu đồ

phân tán.

Trong phần giới thiệu của bài báo chúng tôi đã trình bày hai ví dụ về hai hồi quy

đơn giản ở đó biểu đồ phân tán kể cho ta câu chuyện mà các ước lượng hồi quy

không làm được. Trong ví dụ thứ nhất, chúng ta thấy rằng hệ số tương quan

khá cao nhưng đó là do mối quan hệ theo kiểu ‘tạ đôi’. Trong ví dụ thứ hai,

chúng ta xác định từ hồi quy rằng hệ số tương quan là rất thấp nhưng, như trong

Page 29: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

29

biểu đồ thứ hai trong Hình 15, biểu đồ lại cho thấy một mối quan hệ nổi bật giữa

hai biến.

6. Các kỹ thuật đa biến

Việc xem xét các mối quan hệ giữa một nhóm các biến thường là mục tiêu phân

tích của chúng ta. Thậm chí nếu đúng như thế thì vẫn hữu ích để ta bắt đầu

bằng cách xem xét mỗi biến riêng lẻ, tập trung vào các thống kê như skewness,

kurtosis, giá trị bất thường, và các giả định phân phối, vân vân. Các kỹ thuật

vừa được mô tả ở trên trong các mục 3 và 4 rất hữu ích cho mục đích này. Tuy

nhiên, có các kỹ thuật vẽ đồ thị khác có thể được sử dụng để xem xét một nhóm

các biến cùng một lúc. Trong phần này hai trong số kỹ thuật đó sẽ được mô tả.

Kỹ thuật thứ nhất là các biểu đồ hộp cạnh – kề - cạnh và thứ hai là một cách

thể hiện khác bằng đồ thị của ma trận hệ số tương quan – biểu đồ phân tán ma

trận (matrix scatter plot).

6.1 Biểu đồ hộp cạnh – kề – cạnh

Các biểu đồ hộp cạnh – kề – cạnh là một tập hợp các biểu đồ hộp trình bày các

phân phối của một số trường hợp hoặc một số biến theo một cách mà chúng ta

có thể so sánh không chỉ các thước đo trung tâm mà còn các phân phối của

các biến. Như chúng tôi đã đề cập ở trên, bề rộng của các biểu đồ hộp thường

là tùy ý để chúng có thể được chia tỷ lệ theo một cách mà chúng ta có thể đặt

chúng kế nhau miễn là các khoảng giá trị là tương tự về độ lớn để chúng có thể

được vẽ trên cùng một trục tung.

Ở Bảng 4 chúng tôi liệt kê các thống kê mô tả cho một tập hợp bảy gian hàng

khác nhau của các siêu thị trong mẫu. Từ bảng này, ngoài thứ tự của các giá trị

trung bình (xem cột 5), thì rất khó để xác định làm thế nào để so sánh các loại

doanh số trong mỗi gian hàng.

Page 30: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

30

Trong Hình 16, biểu đồ hộp cạnh – kề – cạnh được tạo ra bằng phần mềm

Eviews được trình bày cho một nhóm chọn lọc các gian hàng khác nhau trong

mẫu của ta về các siêu thị trong đó các hộp được sắp xếp theo mức độ trung vị

(median) của giá trị doanh số (lưu ý các dấu sao cho biết bị trí của các giá trị

trung bình). Hình này cho phép chúng ta không chỉ so sánh các giá trị trung vị

Page 31: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

31

mà còn các khoảng tứ phân vị của mỗi gian hàng. Ví dụ, hình này cho thấy

doanh số cao nhất từ gian hàng Health and Beauty chỉ khoảng phân vị dưới

(Q0.25) của gian hàng Produce Sales. Cũng như thế, biểu đồ cho thấy gian hàng

Meat Sales có doanh số trung bình thì thấp hơn gian hàng Produce Sales nhưng

khoảng tứ phân vị thì giống nhau giữa hai gian hàng.

6.2 Biểu đồ phân tán ma trận

Đồ thị này bao gồm một dãy các biểu đồ phân tán sắp xếp theo cách sao cho

bất kỳ một cặp biểu đồ liền kề có chung một trục tọa độ. Biểu đồ loại này tương

đương về mặt đồ thị với ma trận hệ số tương quan. Nó là một phương pháp hữu

ích để theo dõi một điểm thú vị hoặc một nhóm các điểm qua nhiều biến. Trong

khi một nhóm bất kỳ các biến có thể được đưa vào trong đồ thị như thế, nhưng

nên nhớ rằng thường thì dễ giải thích một đồ thị hơn nếu nó được đặt vừa khớp

trong cùng một trang duy nhất.

Bảng 5 là một ma trận hệ số tương quan của bốn biến. Các biến này bao gồm:

Grocery Sales (doanh số thực phẩm), Meat Sales (doanh số bán thịt), Produce

Sales (doanh số rau quả), và Total Average Daily Sales (tổng doanh số trung

bình hàng ngày).

Hình 17 là một biểu đồ phân tán ma trận từ phần mềm SPSS của bốn biến được

sử dụng trong để xây dựng Bảng 5. Trong đồ thị này các quan sát 62 và 84

được theo dõi trong mỗi biểu đồ phân tán.

Page 32: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

32

Từ Hình 17, các quan sát được theo dõi là các quan sát bất thường (outliers)

liên quan đến Produce Sales. Từ biểu đồ phân tán ma trận, thật thú vị để lưu ý

rằng dường như đây là các quan sát bất thường chỉ đối với Produce Sales. Lưu

ý rằng nếu các cửa hàng này không được đưa vào khi tính hệ số tương quan

giữa Meat Sales và Produce Sales thì bạn sẽ kỳ vọng mối quan hệ này mạnh

hơn. Cũng thú vị để lưu ý rằng trong mối quan hệ với (in terms of) Total Average

Daily Sales, thì Meat Sales và Grocery Sales có mối quan hệ tương tự nhau,

trong khí đó thì dường như mối quan hệ dốc hơn nhiều giữa Total Average Daily

Sales và Produce Sales. Một biểu đồ loại này có thể được đi kèm với một ma

trận hệ số tương quan của các biến này để xác định liệu rằng có phải các hệ số

tương quan là do các quan sát bất thường tạo ra hay không.

Page 33: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

33

7. Các nguyên tắc chung khi trình bày đồ thị

Giá trị của việc sử dụng phương pháp đồ thị trong phân tích dữ liệu là khi chúng

cho ta muốn tìm hiểu xem dữ liệu của mình phù hợp với dạng mô hình nào. Đối

với mục đích này, các đồ thị cần phải là các biểu đồ được trình bày rõ ràng và

được thiết kế kỹ lưỡng. Phần mềm hiện đại cho phép chúng ta thực hiện nhiều

dạng thiết kế khác nhau về từng yếu tố trong một biểu đồ. Ta có thể dễ dàng

thay đổi hình dáng, kích cỡ, phông chữ, màu sắc, độ đậm lợt, chiều hướng và

vị trí dọc theo một trục tọa độ của đồ thị để tối đa hóa tác động trực quan của

nó. Trong phần này, chúng tôi trình bày một ví dụ về biểu đồ phân tán với việc

sử dụng các lựa chọn mặc định (default options) trong Excel và chúng tôi trình

bày quy trình thực hiện nhằm cải thiện tác động trực quan của đồ thị này.

7.1 Biểu đồ phân tán mặc định

Trong Hình 18 chúng tôi trình bày kết quả tạo ra một biểu đồ phân tán giữa

Dairy Sales (trục y) theo Grocery Sales (trục x) bằng cách sử dụng các lựa chọn

mặc định trong Excel. Có nhiều vấn đề trực quan với cách trình bày của đồ thị

này: các tên nhãn của biểu đồ gây khó hiểu; sử dụng quá nhiều nét đậm (ink),

từ các đường kẻ ngang bên trong biểu đồ và màu nền, mà những thứ này không

thể hiện được điều gì về thông tin của dữ liệu; nhiều khoảng trống do ‘vô ý’ gán

gốc tọa độ của các trục x và y giá trị bằng 0; và sử dụng các biểu tượng có kích

thước lớn cho các điểm làm che khuất vị trí của các điểm nằm bên dưới. Trong

phần này chúng tôi chỉ dẫn cho bạn cách thức làm thế nào để thay đổi các lựa

chọn mặc định nhằm cải thiện sự biểu hiện trực quan bằng cách sử dụng

chương trình Excel.

Page 34: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

34

7.2 Sửa tên nhãn của trục tọa độ

Từ hộp thoại Chart Options, chọn Titles. Trong nhóm các lựa chọn, ta loại bỏ

Dairy trong Chart title và đặt tên nhãn của trục x là Grocery và của trục y là

Dairy. Các bước này được minh họa trong Hình 19. Ngoài ra, tên nhãn Dairy

bên phải Hình 18 trong hộp chú thích (legend) có thể được loại bỏ bằng cách

nhấp chuột vào để chọn và sau đó xóa đi.

Page 35: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

35

7.3 Tối đa hóa các hình ảnh của dữ liệu trong đồ thị

Hầu hết các nét đậm trên một đồ thị nên thể hiện các thông tin liên quan đến

số liệu (Tufte 1983). Trong Hình 18, màu nền sậm và nhiều đường kẽ ngang

song song trục x không cung cấp thông tin gì về dữ liệu. Để loại bỏ các đường

kẽ ngang, từ hộp thoại Chart Options chọn Gridlines và loại bỏ dấu tích (check)

trên ô Major gridlines ở phía dưới Value (Y) axis. Để loại bỏ hình nền, nhấp vào

(click) nút bên tay phải chuột [Người dịch: Máy tính đời củ, chứ bây giờ ít ai dùng

chuột] và chọn Format Plot Area, rồi chọn ‘white’ trong danh mục màu sắc. Kết

quả sau khi thực hiện cả hai công việc này được minh họa ở Hình 20.

7.4 Giảm các khoảng trắng không chứa thông tin

Trong Hình 18, giá trị nhỏ nhất của hai trục x và y là 0, mặc dù giá trị nhỏ nhất

của Grocery là khoảng 10000 và giá trị nhỏ nhất của Dairy là khoảng 2000. Để

thay đổi các giá trị nhỏ nhất theo mặc định, nhấp vào ‘một con số’ bất kỳ trên

trục x và chọn Format Axis. Chọn scale và nhập giá trị 10000 như là giá trị nhỏ

nhất cho trục x. Tương tự, để thay đổi giá trị nhỏ nhất cho trục y, nhấp vào ‘một

con số’ bất kỳ trên trục y và chọn Format Axis. Chọn scale và nhập giá trị 2000

như là giá trị nhỏ nhất cho trục y.

Page 36: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

36

7.5 Giảm kích thước của các điểm được vẽ trên đồ thị

Bước cuối cùng là nhấp vào các điểm được vẽ trên đồ thị để vào lựa chọn

Format Data Series. Trong lựa chọn này, chọn Pattern và làm nhỏ kích cỡ của

các điểm. Trong Hình 21, biểu đồ phân tán cuối cùng được minh họa.

Điều quan trọng cần nhớ rằng có nhiều phần mềm thống kê cung cấp các gói

chuyên về đồ thị, tuy nhiên có lẽ cũng cần thiết phải thay đổi các lựa chọn mặc

định có sẵn trong các phần mềm này để có được một đồ thị tối đa hóa hiển thị

trực quan. Trong phần mềm như thế, bạn có thể lưu các lựa chọn sao cho tất

cả các biểu đồ đều có một thiết kế tương tự.

8. Các phần mềm thống kê

Các phần mềm thống kê sẵn có từ khi hệ thống máy tính lớn trở nên phổ biến

cho việc phân tích dữ liệu vào những năm 1960. Các chương trình đầu tiên bao

gồm các chương trình đồ họa thô sơ tạo ra thứ mà ta thường cho là ‘biểu đồ

máy in’ (printer plots) và các biểu đồ đường nét (line graphs) chỉ sẵn có nếu

như bạn tiếp cận vào các biểu đồ được xây dựng cho mục tiêu nhất định. Các

biểu đồ máy in này vẫn còn tồn tại trong một số chương trình và có thể cung

Page 37: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

37

cấp một phương pháp thuận tiện để quét (scan) một lượng lớn dữ liệu trong đó

biểu đồ có thể được tạo ra một cách rất hiệu quả và được vẽ với chỉ một lệnh

lựa chọn duy nhất. Với sự sẵn có phổ biến của các máy tính có khả năng vẽ đồ

thị, một nhánh nhu cầu về khả năng các máy tính thực hiện nhiều trò chơi điện

toán phức tạp – kết quả là ngày càng có nhiều phần mềm thống kê được viết

cùng với các gói phần mềm chuyên về đồ họa. MS Excel là một chương trình

được sử dụng rộng rãi để tạo ra các biểu đồ. Hai gói phần mềm được sử dụng

phổ biến cho đồ thị trong kinh tế lượng là SPSS và Eviews [Người dịch: Hiện tại

phải nói rằng Stata mới là phần mềm vẽ đồ thị ấn tượng nhất]. Cả hai chương

trình này sử dụng kỹ thuật soạn thảo theo thực đơn chỉ-và-nhấp (point-and-click

menu-driven editing) các đặc điểm của biểu đồ của phần mềm máy tính cá nhân

được sử dụng rộng rãi nhất chẳng hạn như MS Excel. Dưới đây chúng tôi liệt

kê các khả năng của Eviews và SPSS.

Eviews và SPSS có các chức năng biên tập đồ thị cho phép thực hiện các thay

đổi ở hầu như tất cả các khía cạnh của biểu đồ. Một khi biểu đồ đầu tiên được

tạo ra, biểu đồ có thể được đưa vào trình đơn biên tập đồ thị (graphics editor).

Cả Eviews và SPSS cho phép bạn điều chỉnh cỡ chữ, màu sắc, và tỷ lệ của các

trục – tuy nhiên SPSS cho phép bạn nhận dạng các quan sát cụ thể cũng như

ghi chú thích đồ thị và đưa thêm các đường tham chiếu khi cần bên trong đồ thị

(xem các Hình 12, 14, 16, và 17 ở đó các quan sát đặc biệt được nhận diện).

Ngoài ra, với SPSS nhiều hình ảnh dạng đồ thị có thể được sao chép đồng thời

và dễ dàng chèn vào các tài liệu của trong MS Word. SPSS cũng có khả năng

ghi chép lại các chỉnh sửa cụ thể đã được thực hiện của một biểu đồ vào một

tập tin để các biểu đồ mới có thể được tạo ra với cùng một định dạng sử dụng

một loại tập tin được gọi là ‘tập tin khuôn mẫu’ (template file) (một lựa chọn như

thế cũng có sẵn trong Eviews). Một đặc điểm hay nữa của SPSS là nó có thể

tạo ra ‘tập tin nhật ký chính xác’ (exact journal file) cho phép tất cả các lệnh

‘chỉ-và-nhấp’ đã hoàn thành trong một phiên làm việc được ghi chép lại thành

Page 38: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

38

một tập tin có tên gọi là ‘tập tin các lệnh dạng batch’ (batch commands file), tập

tin này sau đó có thể được đưa vào cửa sổ cú pháp của chương trình. Trong

cửa sổ này, tập tin đó có thể được biên tập với một chương trình biên tập văn

bản (text editor) để làm cho nhiều ứng dụng giống nhau có thể được thực hiện

với cùng một dữ liệu.

Page 39: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

39

Không giống SPSS, Eviews sẽ tính các ước lượng mật độ phi tham số. Ngoài

ra, trong Eviews nhiều đồ thị có thể được tạo ra và được đưa vào một tập tin đồ

thị duy nhất – với khả năng đặt một biểu đồ này chồng lên một biểu đồ khác.

Điều này đặc biệt hữu ích trong việc tóm tắt một số biểu đồ trên cùng một trang

[Người dịch: Page ở đây không phải là trang giấy. Khi ta mở một tập tin làm việc

của Eviews (workfile), tập tin đó sẽ hiện ra trong một trang. Nếu ta muốn mở

một tập tin khác, mà vẫn để nguyên tập tin trước đó, ta chỉ cần mở một trang

mới (Add New Page), …]. Hình 22 là một ví dụ minh họa các biểu đồ phân phối

doanh số thành phần được liệt trong Hình 16 có thể được tóm tắt như thế nào

dưới dạng các biểu đồ mật độ kernel. Eviews có khả năng yêu cầu biểu đồ ước

lượng mật độ được đặt trong một tập tin nhưng có thể xuất ra một tập tin khác

sao cho các biểu đồ mật độ có thể được so sánh trên cùng một biểu đồ chung.

Trong Hình 23 chúng tôi đã thay đổi tỷ lệ các biểu đồ mật độ của cả Health and

Beauty Sales và Bakery Sales để chúng có thể được so sánh một cách trực

tiếp. Lưu ý rằng vùng phía dưới mỗi đường cong mật độ cũng được chia theo tỷ

lệ để tổng giá trị xác suất chúng đều bằng 1.

Page 40: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

40

9. Kết luận

Thông điệp được rút ra từ bài báo này là biểu diển bằng đồ thị của dữ liệu có

thể giúp cải thiện sự hiểu biết về các thông tin từ quan sát được dùng trong

phân tích thống kê. Có nhiều phương pháp khác nhau để tóm tắt dữ liệu theo

cách trực quan. Các phương pháp này có thể được dùng cho một biến đơn lẻ

hoặc cho dữ liệu cặp hoặc dữ liệu đa biến. Các giả định về phân phối của dữ

liệu có thể được xem xét và các mối quan hệ qua lại giữa hai biến và nhiều biến

có thể được thực hiện. Ngoài ra, chúng tôi giải thích một phần mềm chuẩn tạo

hình ảnh dạng đồ thị có thể được cải thiện như thế nào để làm nổi bật thông

điệp trong thông tin bằng đồ thị của dữ liệu.

Trọng tâm của bài báo này là ở các quan sát chéo trong đó chúng tôi không

thảo luận các khía cạnh chuỗi thời gian của dữ liệu. Chúng tôi ngầm giả định

rằng dữ liệu đang xem xét được phân phối một cách đồng nhất và độc lập

[Người dịch: Hàm ý là phân phối chuẩn]. Giả định thứ hai [Người dịch: Một cách

độc lập] thường không phải lúc nào cũng đúng khi một mẫu được đo lường qua

thời gian. Không may, khi một mẫu không độc lập thì việc sử dụng các phương

pháp tương quan với dữ liệu phụ thuộc khác có thể dẫn đến kết quả giả mạo

(spurious results). Ngoài ra, nếu dữ liệu không được phân phối một cách đồng

nhất, thì ước lượng hàm mật độ có thể bị trùng hợp (confounded) bởi sự thật

rằng dữ liệu có thể được tạo ra từ nhiều quá trình khác nhau và vì thế việc cố

gắng nhận diện một quá trình duy nhất có thể giống như việc sử dụng dữ liệu

từ một trường hợp ‘biểu đồ tạ đôi’ để ước lượng hệ số tương quan. Các phương

pháp đồ thị có thể được áp dụng cho dữ liệu chuỗi thời gian để nhận diện bản

chất của dữ liệu. Đây sẽ là chủ đề của một bài báo trong tương lai.

Page 41: Các phương pháp thống kê mô tả cho d ệu chéo · Ngày nay, sự sẵn có ... thì những khác biệt giữa các bộ dữ liệu như các giá trị bất thường

41

Chú thích:

Dữ liệu được sử dụng trong bài báo này:

<http://gsbwww.uchicago.edu/research/mkt/Databases/DFF/DFF.html>.

[

Tài liệu tham khảo:

Anscombe, F. 1973, ‘Graphs in statistical analysis’, American Statistician, vol.

27, pp. 17–21.

Chambers, J. M., Cleveland, W. S., Kleiner, B. and Tukey, P. A. 1983, Graphical

Methods for Data Analysis, Chapman & Hall, United States.

Epanechnikov, V. A. 1969, ‘Nonparametric estimates of multivariate probability

density’, Theory of Probability and Applications, vol. 14, pp. 153–8.

Greene, W. 2003, Econometric Analysis, 5th edition, Prentice Hall, New Jersey.

Griffiths, W., Carter Hill, R. and Judge, G. 1993, Learning and Practicing

Econometrics, John Wiley & Sons Ltd, New York.

Henry, G. T. 1995, Graphing Data: Techniques for Display and Analysis, Sage

Publications, Thousand Oaks, California.

Kennedy, P. 2003, A Guide to Econometrics, 5th edn, Blackwell Publishing,

United Kingdom.

Koop, G. 2000, Analysis of Economic Data, John Wiley & Sons Ltd, New York.

Leamer, E. 1994, Sturdy Econometrics, Edward Elgar Publishing Company,

Great Britain.

Pindyck, R. and Rubinfeld, D. 1998, Econometric Models and Economic

Forecasts, 4th editionn, International edn, Irwin/McGraw Hill,

Boston, Massachusetts.

Silverman, B. W. 1986, Density Estimation for Statistics and Data Analysis,

Chapman & Hall, London.

Tufte, E. R. 1983, The Visual Display of Quantitative Information, Graphics

Press, Cheshire, Connecticut.