Tỉ lệ tốt nghiệp: địa phương nào đáng nghi ngờ nhất ?

Standard
Bác Tuấn viết bài này thú vị quá đi thôi!

…”trong danh sách top 10, có đến 7 tỉnh từ miền Bắc”- con số rất có ý nghĩa.

_CGL_

In Email
https://i2.wp.com/www.diendan.org/viet-nam/thi-tot-nghiep-trung-hoc-pho-thong-2005-2008/bieudo3.gifLiên quan đến vấn đề tỉ lệ thi tốt nghiệp trung học phổ thông quá cao, phó thủ tướng Nguyễn Thiện Nhân yêu cầu rà soát lại xem địa phương nào có “thành tích” đáng nghi ngờ. Có nhiều cách làm để “rà soát”. Cách nghiêm chỉnh là xem tỉ lệ tốt nghiệp của từng trường qua nhiều năm. Cách làm thứ hai không tốt lắm là phân tích tỉ lệ tốt nghiệp trung bình toàn tỉnh qua nhiều năm. Bài này muốn “offer” ngài phó thủ tướng một phương pháp có thể nhận dạng ra địa phương nào đáng nghi ngờ.Thật ra, câu hỏi đáng lẽ phải là “Tỉnh / thành nào có tỉ lệ học sinh đỗ trung học phổ thông cao nhất?”. Đây là một câu hỏi chiếm khá nhiều thời lượng suy nghĩ của tôi. Để trả lời câu hỏi này, cần phải có dữ liệu về số học sinh tham dự thi tốt nghiệp trung học phổ thông (THPT) qua từng năm, của từng trưởng, trong từng tỉnh. Với số liệu như thế thì việc trả lời câu hỏi trên không khó mấy. Tuy nhiên, trong điều kiện thiếu thốn dữ liệu, tôi nghĩ chúng ta có thể dựa vào tỉ lệ tốt nghiệp THPT mà các tỉnh thành và Bộ Giáo dục & Đào tạo công bố để trả lời câu hỏi trên.

Dễ mà không đơn giản !

Có lẽ đối với nhiều người, câu trả lời quá đơn giản: chỉ cần tìm tỉ lệ tốt nghiệp THPT của một năm nào đó (như năm 2010 chẳng hạn), và sắp xếp từ cao đến thấp, và nhận dạng địa phương có tỉ lệ tốt nghiệp cao nhất. Thật ra, đây cũng chính là phương pháp mà các quan chức trong Bộ Giáo dục và Đào tạo từng làm. Phương pháp này có lợi thế là đơn giản. Ai làm cũng được. Học sinh lớp 5 có thể làm được dễ dàng với software như Excel.

Nhưng phương pháp đơn giản đó có một khiếm khuyết lớn: đó là chưa tính đến độ tin cậy của một địa phương. Để thấy sai lầm của phương pháp đó, chúng ta có thể xem qua số liệu thực tế về tỉ lệ tốt nghiệp THPT của 2 địa phương Hải Phòng và Hải Dương trong 4 năm 2007 – 2010:

Địa phương

2011

2010

2009

2008

2007

Trung bình
Hải Phòng

98.46

98.86

93.66

90.40

76.90

91.6

Hải Dương

99.32

99.28

91.56

87.60

78.10

91.2

Tỉ lệ tốt nghiệp (trung bình) của Hải Phòng là 91.6%, và Hải Dương là 91.2%. Nhìn vào bảng trên, chúng ta có thể kết luận rằng Hải Phòng “giỏi” hơn Hải Dương? Cố nhiên là không. Bởi vì nếu nhìn kĩ, chúng ta sẽ thấy độ dao động của Hải Phòng cao hơn Hải Dương. Thật vậy, phương sai của Hải Phòng là 80.3, còn của Hải Dương là 78.9. Nói cách khác, tuy Hải Dương có tỉ lệ tốt nghiệp tương đối thấp hơn Hải Phòng, nhưng tỉ lệ của Hải Dương đáng tin cậy (hiểu theo nghĩa dao động ít hơn) Hải Phòng. Do đó, không thể xếp hạng bằng cách đơn giản dựa vào tỉ lệ trung bình, và càng không thể dựa vào tỉ lệ tốt nghiệp của một năm, bởi vì độ dao động khá lớn giữa các năm trong một địa phương.

Một khía cạnh khác cũng có phần phức tạp hơn là mối tương quan giữa tốc độ tăng trưởng tỉ lệ tốt nghiệp và tỉ lệ tốt nghiệp năm 2007 (năm đầu khi ông Nguyễn Thiện Nhân bắt đầu phong trào “Hai Không”). Tính trung bình cho cả nước, tỉ lệ tốt nghiệp THPT tăng 9% mỗi năm (tôi gọi đó là “tốc độ tăng trường”). Nhưng không phải tỉnh thành nào cũng có cùng tốc độ tăng trưởng, mà tốc độ này dao động từ dưới 0 đến 25% mỗi năm! Điều quan trọng hơn là tốc độ tăng trưởng có liên quan nghịch đảo với tỉ lệ tốt nghiệp năm 2007 (xem Biểu đồ 1 dưới đây). Theo biểu đồ này, những tỉnh có tỉ lệ tốt nghiệp thấp trong năm 2007 thì trong những năm sau tỉ lệ tốt nghiệp tăng rất nhanh; ngược lại, những tỉnh có tỉ lệ tốt nghiệp cao (như TPHCM, Nam Định, Hà Nam) thì tốc độ tăng trưởng khá chậm. Đây còn gọi là hiện tượng “regression toward the mean effect”, tức là ảnh hưởng hồi qui trung bình. Nói cách khác, tỉnh nào có tỉ lệ quá cao hay quá thấp co xu hướng quay về trung bình toàn quốc. Đây là một đặc điểm rất quan trọng, vì nó gợi ý rằng phương pháp phân tích đơn giản không thể giải quyết được vấn đề phương sai.

Biểu đồ 1: Mối tương quan giữa tỉ lệ tốt nghiệp năm 2007 (trục hoành) và tốc độ tăng trưởng tỉ lệ tốt nghiệp trong thời gian 2007-2010. Biểu đồ cho thấy địa phương nào có tỉ lệ tốt nghiệp cao vào năm 2007 thì tỉ lệ tăng trưởng thấp hơn so với các tỉnh có tỉ lệ tốt nghiệp thấp. Đây là hiện tượng “regression toward the mean effect” rất phổ biến trong đo lường, và cần phải được điều chỉnh để so sánh giữa các tỉnh thành khách quan hơn.

Phương pháp khách quan hơn

Do đó, phương pháp xếp hạng khách quan phải dựa vào hai chỉ số: trung bình và phương sai. Một phương pháp xếp hạng dựa vào 2 chỉ số đó là mô hình mà giới thống kê học gọi là Empirical Bayes (EB), có lẽ tạm dịch là “Phương pháp Bayes thực tế” (nghe ngô nghê quá, nhưng ai hay chữ hơn, xin góp ý). Thật ra, đây là phương pháp mà giới nghiên cứu về chất lượng giáo dục và xếp hạng trường học thường hay sử dụng và kết quả rất thành công. Có thể đọc một bài báo tiêu biểu về mô hình này của Nan Laird và Thomas Louis (Empirical Bayes ranking methods) đăng trên tập san J Educat Stat 1989; 1:29-46).

Nó một cách ngắn gọn, phương pháp EB dựa vào lí thuyết đo lường (theory of measurement), vốn hay áp dụng trong các xét nghiệm sinh hóa và lâm sàng. Có lẽ tôi phải giải thích về lí thuyết này. Hãy hình dung tỉ lệ tốt nghiệp THPT (tôi sẽ gọi tắt là Y) của một địa phương như Thành phố Hồ Chí Minh trong 4 năm 2007-2010 là 94.6%, 93.3%, 95.1%, và 96.1%. Như vậy, tính trung bình tỉ lệ tốt nghiệp của TPHCM trong 4 năm là 94.8%, với phương sai 1.36. (Xin nhắc lại, phương sai là một chỉ số đo lường độ dao động của một biến số. Phương sai cao có nghĩa là độ dao động hay biến chuyển cao, và đo lường có độ tin cậy thấp). Lí thuyết đo lường phát biểu rằng giá trị quan sát (observed value; trong trường hợp này là tỉ lệ tốt nghiệp THPT mỗi năm) của một địa phương là tổng số của giá trị thật (true value) và sai số ngẫu nhiên. Gọi Yj là tỉ lệ tốt nghiệp THPT của một năm j, trị số thật là T, và sai số ngẫu nhiên là E, phát biểu đó có nghĩa là:

Yj = T + Ej

Nói cách khác, tỉ lệ tốt nghiệp trong mỗi năm dao động chung quanh con số thật T với một độ khác biệt là E. Trong ví dụ của TPHCM, phát biểu trên có thể hiểu là:

Yj = 94.8 + Ej

Giả định rằng T E độc lập nhau (tức không có tương quan gì với nhau), chúng ta có thể phát biểu thêm rằng phương sai của Y bằng phương sai của T cộng với phương sai của E. Gọi phương sai của Y là S, phương sai của T là ST, và phương sai của E là SE, chúng ta có thể viết:

S = ST + SE

Từ đó, giới thống kê giáo dục định nghĩa hệ số tin cậy (coefficient of reliability, kí hiệu là R) là:

R = ST / S

Do đó, nếu R gần bằng 1 thì điều đó có nghĩa là độ dao động giữa các năm trong một địa phương rất nhỏ. Tuy nhiên, ở đây, chúng ta sẽ không mấy quan tâm đến R, vì mục tiêu là tìm một phương pháp để xếp hạng các tỉnh.

Nhưng trong thực tế, chúng ta có đến 63 tỉnh thành (tôi sẽ gọi chung là “địa phương”). Do đó, chúng ta có 63 giá trị T, và 63 giá trị E. Bây giờ, chúng ta phải thêm một kí hiệu tiếp ngữ i để chỉ từng địa phương (tức là i = 1, 2, 3, …, 63). Do đó, thay vì viết T E, chúng ta nên viết chính xác hơn là TiEi. Chúng ta giả định rằng tập hợp Ti tuân theo luật phân phối chuẩn với trung bình là m và phương sai là u, và tập hợp Ei tuân theo luật phân phối chuẩn với trung bình 0 và phương sai v. Bằng định lí Bayes, chúng ta có thể ước tính Ti như sau:

Ti = (m/u + Yi/v) / (1/u + 1/v)

Và phương sai là:

Wi = 1/(1/u + 1/v)

Công thức trên cho thấy tỉ lệ thật của một địa phương thực chất là một trọng số trung bình (weighted average) giữa tỉ lệ của địa phương đó và tỉ lệ trong quần thể (tức toàn quốc), với trọng số là số đảo của phương sai của địa phương và phương sai của quần thể. Như vậy, địa phương có phương sai cao sẽ có “tỉ lệ thật” (Ti) thấp hơn so với địa phương có phương sai thấp nhưng có cùng tỉ lệ quan sát (Yi). Do đó, phương pháp này vừa mang tính logic mà còn khách quan.

Nói cách khác, tỉ lệ tốt nghiệp trung bình về lâu về dài của một địa phương i Ti với phương sai là Wi. Vì chúng ta giả định rằng hai tỉ lệ tốt nghiệp tuân theo luật phân phối chuẩn, cho nên với 2 thông số TiWi, chúng ta có thể xếp hạng các tỉnh một cách dễ dàng. Các thông số m, u, v được ước tính từ số liệu thực tế từ năm 2007 đến 2010.

Số liệu về tỉ lệ tốt nghiệp THPT mà tôi và đồng nghiệp thu thập được. Số liệu này chỉ đơn thuần là tỉ lệ tốt nghiệp trung bình cho 65 tỉnh thành từ năm 2006 đến 2011. Bởi vì năm 2006 là “đỉnh” của bệnh thành tích, nên tôi chỉ dùng số liệu từ năm 2007 đến 2011 cho ước tính các thông số trên.

Cách tôi làm bắt đầu bằng một câu hỏi: xác suất mà một địa phương có tỉ lệ tốt nghiệp trên 90% là bao nhiêu? Dựa vào thông số TiWi, chúng ta có thể ước tính xác suất trên một cách dễ dàng. Tôi chọn ngưỡng 90% để làm ngưỡng “đỗ” chỉ vì thuận tiện, chứ trong thực tế, chúng ta có thể chọn bất cứ ngưỡng nào. Gọi xác suất trên là Z90, chúng ta có thể dựa vào Z90 mà xếp hạng. Nói cách khác, địa phương nào có Z90 càng cao thì đó là một chỉ số thể hiện học sinh địa phương đó học giỏi (=đỗ nhiều).

Kết quả

Nếu dựa vào tỉ lệ tốt nghiệp (tính trung bình từ 2007 – 2011) thì 5 địa phương đứng đầu bảng là: Nam Định, với tỉ lệ tốt nghiệp THPT 95.7%; kế đến là TPHCM với tỉ lệ trung bình 94.4; Hà Nam (92.5%); Hải Phòng (89.9%); và Bắc Ninh (89.1%). Năm địa phương đứng cuối bảng là: Bắc Kạn (48.6%), Sơn La (52.3%), Cao Bằng (55.6%), Sóc Trăng (62.1%), và Yên Bái (62.6%). Tuy nhiên, như tôi trình bày trên, cách xếp hạng này không khách quan, vì chỉ dựa vào chỉ số trung bình, mà chưa tính đến độ dao động trong mỗi địa phương.

Dùng phương pháp EB (Empirical Bayes), tôi có một kết quả khác và tôi tin là khách quan hơn. Chẳng hạn như Nam Định, mặc dù có tỉ lệ thực tế (trung bình 2007-2011) là 95.7%, cao hơn TPHCM 94.4%; nhưng vì phương sai của Nam Định là 17.75, cao hơn TPHCM (chỉ 0.59), cho nên tỉ lệ thật (hay tỉ lệ về lâu về dài) của Nam Định là 92.8%, thấp hơn TPHCM (94.3%). Chú ý tỉ lệ thật của TPHCM chẳng khác gì so với tỉ lệ thực tế, bởi vì độ dao động qua các năm của TPHCM quá thấp, và điều này chứng tỏ TPHCM không có bệnh thành tích nặng nề như các nơi khác. Kết quả cách xếp hạng này có thể xem trong bảng số liệu dưới đây.

Theo phân tích EB, thì TPHCM có tỉ lệ tốt nghiệp “thật” (true average) là 94.3%, và phương sai chỉ 0.58, tức rất ít dao động qua các năm, và xác suất mà TPHCM có tỉ lệ tốt nghiệp cao hơn 90% là 1. Do đó, TPHCM được xếp hạng số 1 trong bảng “học giỏi”. Nam Định tuy có tỉ lệ trung bình thực tế cao hơn TPHCM, nhưng vì độ dao động (phương sai) cao hơn TPHCM đến 26 lần, cho nên tỉ lệ thật chỉ 92.8% (tức thấp hơn TPHCM), và do đó, xác suất mà tỉ lệ tốt nghiệp trên 90% là 0.76. Nam Định được xếp vào hạng 2. Danh sách “top 10” và “bottom 10” có thể tóm lược trong bảng sau đây:

Top 10 Bottom 10
Thành phố Hồ Chí MinhNam Định

Hà Nam

Thái Nguyên

Hải Phòng

Hải Dương

Bắc Ninh

Lâm Đồng

Vĩnh Phúc

Đà Nẵng

Dak LakĐồng Tháp

Bến Tre

Bình Thuận

Sóc Trăng

Trà Vinh

An Giang

Kiên Giang

Tây Ninh

Ninh Thuận

Điều thú vị là trong danh sách top 10, có đến 7 tỉnh từ miền Bắc, chỉ có 2 địa phương từ miền Trung và Nam (Đà Nẵng, Lâm Đồng và TPHCM). Trong khi đó, trong danh sách bottom 10 có đến 6 tỉnh từ Đồng bằng sông Cửu Long, 1 tỉnh thuộc vùng Tây Nguyên (Dak Lak), và đặc biệt không có tỉnh nào thuộc miền Bắc. Điều đau lòng với tôi là Kiên Giang nằm trong danh sách “bottom 10” do chính phương pháp của tôi! :-(

Tuy nhiên, bất cứ phương pháp xếp hạng nào cũng chỉ có giá trị khi số liệu được thu thập một cách tối ưu, và đáp ứng các giả định đặt ra. Như tôi đề cập trong phần đầu, những số liệu này chưa phải là tốt nhất, vì thiếu hai số liệu quan trọng là số học sinh thi. Phải có số liệu này thì tỉ lệ cho từng tỉnh thành sẽ chính xác hơn. Ngoài ra, một giả định rất quan trọng trong phân tích này là tỉ lệ tốt nghiệp trong mỗi tỉnh thành phải tuân theo luật phân phối chuẩn, nhưng chúng ta chưa có dữ liệu đầy đủ để kiểm tra xem giả định này đúng hay không. Trong bối cảnh tỉ lệ tốt nghiệp đều tăng theo thời gian, chúng ta có thể đặt câu hỏi về vấn đề giả định. Tuy nhiên, qua số liệu có được như hiện nay, có lẽ ảnh hưởng của giả định không nghiêm trọng bằng chất lượng của số liệu.

Nói tóm lại, tỉ lệt tốt nghiệp THPT của bất cứ tỉnh thành nào cũng đáng nghi ngờ. Nhưng vấn đề là mức độ nghi ngờ cao hay thấp mà thôi, và trong trường hợp này có thể áp dụng phương pháp EB để xem xét. Một điều chắc là không thể và không nên dựa vào tỉ lệ tốt nghiệp THPT trung bình hay của một năm vì một đặc điểm gần như là qui luật ở VN là độ biến chuyển về tỉ lệ tốt nghiệp qua các năm quá lớn, lớn hơn cả độ khác biệt giữa các địa phương. Vấn đề chủ yếu là “bệnh thành tích” nên tỉ lệ tốt nghiệp của bất cứ năm này cũng khó tin được. Do đó, điều chỉnh cho phương sai là một cách đánh giá công bằng hơn là dựa vào một số liệu thực tế.   Phương pháp tôi trình bày trong bài này thật ra có thể ứng dụng để xếp hạng các trường, nhưng số liệu đòi hỏi chi tiết hơn. Hi vọng rằng phương pháp này sẽ được sử dụng nhiều hơn nữa ở nước ta (thật ra thì các nước tiên tiến đều sử dụng phương pháp EB) để xếp hạng các trường hay tỉnh/thành một cách khách quan hơn.

(Còn tiếp phần 2 – An Giang có tỉ lệ tốt nghiệp THPT năm 2011 đáng nghi ngờ nhất)

NVT

Hạng

Địa phương

Tỉ lệ “thật” (Ti)

Phương sai (Wi)

Z90

P(Ti>90)

1

TPHCM

94.29

0.58

5.60

1.0000

2

Nam Dinh

92.79

15.03

0.72

0.7641

3

Ha Nam

86.89

34.94

-0.53

0.2994

4

Thai Nguyen

87.19

12.59

-0.79

0.2143

5

Hai Phong

83.74

46.33

-0.92

0.1787

6

Hai Duong

83.68

43.32

-0.96

0.1686

7

Bac Ninh

82.57

51.37

-1.04

0.1500

8

Lam Dong

84.19

30.25

-1.06

0.1452

9

Vinh Phuc

83.37

31.64

-1.18

0.1193

10

Da Nang

82.24

42.92

-1.18

0.1181

11

Khanh Hoa

81.65

42.82

-1.28

0.1009

12

Thai Binh

78.67

73.60

-1.32

0.0933

13

Hung Yen

79.94

57.47

-1.33

0.0923

14

Ha Tinh

79.50

59.33

-1.36

0.0865

15

Ha Noi

80.28

50.58

-1.37

0.0859

16

Quang Ninh

79.03

64.08

-1.37

0.0853

17

Ninh Binh

78.93

64.94

-1.37

0.0848

18

Binh Dinh

80.48

47.81

-1.38

0.0844

19

Bac Giang

78.33

70.24

-1.39

0.0818

20

Quang Ngai

79.44

53.49

-1.44

0.0744

21

Phu Tho

76.97

80.66

-1.45

0.0735

22

Thanh Hoa

77.59

72.68

-1.46

0.0727

23

Kon Tum

77.23

74.31

-1.48

0.0692

24

Tuyen Quang

75.82

91.05

-1.49

0.0686

25

Nghe An

76.25

83.81

-1.50

0.0666

26

Thua Thien

77.58

68.29

-1.50

0.0664

27

Lang Son

76.95

73.15

-1.53

0.0635

28

Hoa Binh

75.62

86.65

-1.54

0.0613

29

Yen Bai

75.44

88.58

-1.55

0.0609

30

Quang Tri

75.96

81.59

-1.55

0.0600

31

Quang Nam

77.07

67.06

-1.58

0.0572

32

Ha Giang

75.36

85.83

-1.58

0.0570

33

Lai Chau

75.85

78.95

-1.59

0.0557

34

Ba ria – VT

77.90

54.95

-1.63

0.0514

35

Binh Phuoc

76.24

68.37

-1.66

0.0481

36

Cao Bang

74.33

86.59

-1.68

0.0461

37

Son La

74.22

87.67

-1.68

0.0460

38

Ca Mau

76.93

56.33

-1.74

0.0409

39

Dong Nai

78.59

40.07

-1.80

0.0357

40

Quang Binh

77.18

50.32

-1.81

0.0354

41

Bac Lieu

74.24

69.11

-1.90

0.0290

42

Lao Cai

75.30

59.45

-1.91

0.0283

43

Binh Duong

75.25

58.85

-1.92

0.0272

44

Bac Kan

72.02

81.39

-1.99

0.0231

45

Hau Giang

74.32

61.25

-2.00

0.0225

46

Can Tho

81.39

16.97

-2.09

0.0183

47

Dien Bien

73.16

64.09

-2.10

0.0177

48

Gia Lai

73.84

58.51

-2.11

0.0173

49

Dak Nong

73.10

61.81

-2.15

0.0158

50

Vinh Long

78.73

26.23

-2.20

0.0139

51

Phu Yen

74.66

47.23

-2.23

0.0128

52

Tien Giang

84.32

6.47

-2.23

0.0127

53

Long An

83.94

6.77

-2.33

0.0100

54

Dak Lak

71.62

59.97

-2.37

0.0088

55

Dong Thap

73.91

34.65

-2.73

0.0031

56

Ben Tre

78.42

17.62

-2.76

0.0029

57

Binh Thuan

78.22

17.73

-2.80

0.0026

58

Soc Trang

69.48

49.23

-2.92

0.0017

59

Tra Vinh

78.82

11.95

-3.23

0.0006

60

An Giang

76.93

15.62

-3.31

0.0005

61

Kien Giang

68.37

29.49

-3.98

0.0000

62

Tay Ninh

76.78

7.22

-4.92

0.0000

63

Ninh Thuan

71.18

11.39

-5.58

0.0000

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s