Một trong những nhà thống kê học hàng đầu, một
"giant" thuộc vào thế hệ sau Pearson và Fisher, là David Roxbee Cox. Những công
trình của ông không chỉ ảnh hưởng trong khoa học thống kê, mà còn trong tất cả
các lĩnh vực khoa học khác, nhất là y học. Số bệnh nhân được ông gián tiếp cứu
thì không một nhà khoa học giải Nobel nào có thể sánh nổi với ông. Nói đến tên
D. R. Cox là người ta nghĩ ngay đến "Cox's proportional hazards model", nhưng ít
ai biết được đằng sau công trình đó là một con người hết sức khiêm
nhường.
David R. Cox sinh 17/7/1924 tại Birmingham,
Anh. Thân phụ ông làm chủ tiệm vàng nhỏ. Ông theo học toán ở St John College,
thuộc Đại học Cambridge, nhưng ông tốt nghiệp tiến sĩ từ Đại học Leeds vào năm
1949. Thầy hướng dẫn luận án tiến sĩ của ông là Henry Daniels và Bernard Welch,
nhưng cả hai không nổi tiếng bằng
trò.

Ông xuất thân không hẳn từ khoa bảng, mà trong
kĩ nghệ. Trong thời gian 1944 đến 1946, ông làm việc cho hãng máy bay Royal
Aircraft Establishment. Từ 1946 đến 1950, ông làm việc cho hiệp hội nghiên cứu
về vải len. Nhưng sự nghiệp ông bắt đầu nổi bật khi làm nghiên cứu viên cho Labo
Thống kê của ĐH Cambridge từ năm 1950 đến 1955. Từ 1956 đến 1966 ông được bổ
nhiệm và giữ chức Reader (tương đương với associate professor) và sau này thành
giáo sư (professor) tại Birkbeck College thuộc Imperial College London (ICL),
một đại học lừng danh thế giới. Sau khi xong nhiệm kì giáo sư, ông được bổ nhiệm
là chủ nhiệm (chair) về thống kê học của ICL. Năm 1988 ông được bổ nhiệm làm
Warden (như hiệu trưởng) của Nuffield College, và một thành viên của Bộ môn
thống kê học thuộc ĐH Oxford. Năm 1994, ông chính thức nghỉ hưu từ các chức vụ
khoa bảng, nhưng vẫn còn tham gia nghiên cứu và công bố khoa
học.
Cũng như phần lớn những nhà thống kê học nổi
tiếng, David Cox xuất thân là dân "ngoại đạo" thống kê. Ông cho biết thời gian
ông làm việc cho hãng máy bay Royal Aircraft Establishment, ông phải đương đầu
với phân tích dữ liệu, nhưng ông chuyên môn về toán của ông không giúp gì cho
công việc cả. Hãng máy bay thì nghĩ những người làm toán có thể làm thống kê,
nhưng họ sai lầm tai hại. Thế là ông phải tự học về xác suất, nhưng xác suất
cũng không giúp ông giải đáp được những vấn đề mang tính thí nghiệm. Nhưng khốn
khổ thay, thời đó rất ít chương trình dạy về thống kê học, nên ông chỉ tự học và
tham vấn các nhà thống kê học như Fisher và Lindley. Ông cho biết ông không đến
với thống kê học, và thực tế dồn ông vào cái vị trí phải học thống kê để ... giữ
việc.
Câu chuyện về Fisher, Jeffreys và
Wishart
Khi đã học qua thống kê học, ông tự tin tìm
việc ở hiệp hội nghiên cứu vải len. Ở đó, ông có nhiều cơ hội giúp thiết kế thí
nghiệm và phân tích dữ liệu để sản xuất vải len đẹp hơn và bền hơn. Ông cho biết
lúc đó ngay cả những người giao việc cho ông cũng không nghĩ thống kê học có thể
giúp cho các nhà khoa học thiết kế thí nghiệm tốt
hơn!
Thời
gian ông làm việc tại Labo Thống kê ĐH Cambridge (Statistical Laboratory) là
thời gian ông tiếp xúc toàn những danh tài trong "làng" thống kê học và vật lí
học, như Ronald Fisher, Dennis Lindley và Harold Jeffreys (một 'kẻ thù' của
Fisher). Cả hai người vĩ đại Fisher và Jeffreys đều là dân ngoại đạo thống kê,
nhưng lại là bậc thầy thống kê của David Cox. Fisher lúc đó làm nghiên cứu về di
truyền học và thí nghiệm nông nghiệp, còn Jeffreys là 'cha đẻ' của khoa học địa
vật lí hiện đại. Dạo đó, Jeffreys viết cuốn sách "Theory of Probability" là gối
đầu giường cho nhiều sinh viên cho đến ngày hôm nay. Ông cho biết rằng dù là một
nhà khoa học lừng danh như thế, Jeffreys là người rất hồi hộp khi đứng giảng
trước đám đông, kể cả trước sinh viên! Jeffreys là người rất thân thiện, nhưng
ông rất ít nói, có khi ngồi cả giờ mà ông không nói gì
cả!
Còn
Ronald Fisher thì có rất nhiều kẻ thù, trong số đó có cả Jeffreys. Fisher tìm
đọc cuốn "Theory of Probability" của Jeffreys, và phát hiện một sai sót trong
đó, và thế là ông kết luận 600 trang còn lại là sai hết! Khi Jeffreys được kể
câu chuyện về phát biểu của Fisher, Jeffreys chỉ mỉm cười. Ngoài ra, Fisher còn
"đụng độ" với Wishart lúc đó là Giám đốc Labo Thống kê học tại ĐH Cambridge. Hai
người (Fisher và Wishart) không nói chuyện với nhau, nhưng phần lớn là do thái
độ và cá tính kì cục của Fisher. Gs David Cox cho biết ông Fisher có thể rất
rộng lượng với người khác, nhưng với Labo Thống kê học tại ĐH Cambridge thì ông
có thái độ "không đội trời
chung"!
Công trình "proportional hazards model": Ý
tưởng từ thực
tế
Có
thể nói công trình làm nên tên tuổi của Gs David Cox là bài báo "Regression
models and life-tables" công bố trên tập san Journal of the Royal Statistical
Society năm 1972. Trong bài báo đó, ông mô tả một phương pháp phân tích các dữ
liệu sống còn theo mô thức hồi qui. Mô hình này sau này được biết đến dưới thuật
ngữ "Cox's proportional hazards model" (nhớ rằng hazards có "s"
nhé).
Chúng
ta đã biết rằng có 2 mô hình hồi qui phổ biến dựa vào biến outcome. Để tìm hiểu
mối liên quan giữa một biến outcome liên tục và những yếu tố khác, chúng ta dùng
mô hình hồi qui tuyến tính (linear regression). Ví dụ như mô hình mối liên quan
sự ảnh hưởng của gen đến biến insulin, vì insulin là biến outcome thuộc loại
liên tục, nên chúng ta dùng mô hình hồi qui tuyến tính. Nếu biến outcome là biến
nhị phân (chỉ có hai giá trị 0/1, yes/no, sống/chết ...) thì chúng ta dùng mô
hình hồi qui
logistic.
Nhưng
nếu biến outcome là biến nhị phân, mà nó lại phụ thuộc vào thời gian theo dõi.
Ví dụ như bệnh nhân được điều trị, có người sống suốt thời gian theo dõi, có
người chết sau điều trị vài tháng, có người sống đến 2 năm, lại có người chúng
ta không biết còn sống hay chết vì không theo dõi được. Trong những trường hợp
này, chúng ta dùng mô hình hồi qui Cox, như ông mô tả trong bài báo công bố vào
năm 1972. Gọi L(t) là rủi ro (hazard) của một cá nhân tại thời điểm t, mô hình
hồi qui Cox phát biểu rằng L(t) được xác định bởi tích số của rủi ro trung bình
(L0) và ảnh hưởng của các yếu tố nguy cơ (X1, X2, ...,
Xk):
L(t)
= L0*exp(b1X1 + b2X2 + ... +
bkXk)
Trong
đó, b1, b2, ..., bk là hệ số cần phải ước tính từ dữ liệu thực tế. Ví dụ như tôi
muốn biết rủi ro bị ung thư trong vòng 5 năm, L(5), của một cá nhân bằng rủi ro
trung bình trong quần thể, L0, và ảnh hưởng của các yếu tố như độ tuổi, giới
tính, lối sống, gen, v.v. Mô hình này phổ biến trong hầu hết các ngành khoa học,
từ y khoa đến kĩ thuật và xã hội học. Nhiều nhà khoa học xã hội còn áp dụng mô
hình để nghiên cứu thời gian từ lúc hôn nhân đến li dị! Bài báo của Gs Cox cho
đến nay (sau 45 năm) đã có hơn 45,000 trích dẫn! Bài báo này được đánh giá là
một trong 100 công trình nổi tiếng toàn cầu từ trước đến nay (Con số trích dẫn
của toàn bộ nền toán học Việt Nam trong 10 năm cũng không bằng phân nửa con số
trích dẫn này của 1 bài
báo).
Bây
giờ, khi chúng ta đã biết và hiểu mô hình này, thì thấy nó không có gì quá phức
tạp, nhưng phát kiến đó tốn Gs Cox rất nhiều thời gian. Ông cho biết rằng trước
đó ông đã quan tâm đến vấn đề reliability trong kĩ thuật trong thời gian làm
việc cho hãng máy bay và hiệp hội vải len, nhưng chưa nghĩ ra cách phân tích.
Ông cho biết ông dành đến 4 năm cho công trình này. Có đêm ông thức giấc và nghĩ
đến nó, nhưng rồi lại ...
ngủ.
Được
hỏi tại sao bài báo trở nên phổ biến, ông cho rằng một phần là phương pháp
elegant và dễ hiểu, nhưng phần quan trọng khác là có nhiều người viết chương
trình máy tính để triển khai mô hình trong thực tế. Thế là nhiều người có thể
ứng dạng và trích dẫn bài báo. Đây cũng là một bài học cho nhà khoa học, vì muốn
phương pháp của mình được nhiều người sử dụng (và gây ảnh hưởng) thì ngoài lí
thuyết còn phải viết chương trình máy tính.
Nhìn
về tương
lai
Cũng
như C. R. Rao, Gs David Cox cũng là một người khiêm tốn. Ông nói năng nhẹ nhàng,
phong cách nho nhã. Tôi có cơ duyên nghe ông giảng một lần khi ông ghé qua
Sydney. Không giống như những nhà khoa học khác, ông nói không cần slides. Ông
nói về hành trình dẫn đến công trình lừng dang "Cox's model" rất ư là gần gũi,
và suốt một giờ đồng hồ, ông chỉ nói có vài ba thuật ngữ thống kê! Đến phần thảo
luận, người ta hỏi ông nhiều về những vấn đề liên quan đến dữ liệu sống còn, và
câu trả lời của ông thường là ... không biết. Ông thường bắt đầu câu trả lời
bằng câu "Tôi không biết", nhưng ngay sau đó ông bàn về ý tưởng giải quyết vấn
đề. Khi hỏi về trường phái Bayes, ông tỏ ra rất ngoại giao, cho rằng cả hai
trường phái tần số (frequentist) và Bayes đều có ích, nhưng ông có vẻ nghiêng về
Bayes trong thời đại dữ liệu
lớn.
Khi
được hỏi về phát triển quan trọng trong thời gian gần đây là gì, ông nghĩ rằng
Dữ liệu Lớn (Big Data) là một phát triển đáng chú ý. Đáng chú ý là vì dữ liệu
lớn đặt ra nhiều câu hỏi và vấn đề cho suy luận thống kê, và sẽ dẫn đến ý tưởng
mới. Phần lớn những phương pháp và mô hình thống kê được phát triển cho các
nghiên cứu nhỏ hay tương đối lớn, chứ không cho các vấn đề với hàng tỉ tỉ dữ
liệu. Nhưng ông cũng cảnh báo rằng những phát triển quan trọng và những khám phá
mang tính cơ bản sẽ, cũng như trong quá khứ, xuất phát từ những nghiên cứu nhỏ
nhưng được thiết kế chặt chẽ, hơn là thu thập hàng tỉ thông tin từ hàng triệu
người.
Trong
một bài nói chuyện về tiến bộ trong y học trong thế kỉ 20, một giáo sư Mĩ lừng
danh là Ioanndidis nói rằng "mô hình Cox" là một trong những tiến bộ quan trọng
nhất. Mà, đúng như thế. Làm sao chúng ta có thể xác định hiệu quả của thuốc điều
trị, của thuật can thiệp; làm sao chúng ta có cách chọn phương pháp điều trị tối
ưu và cứu sống bệnh nhân. Ứng dụng mô hình Cox đã giúp y khoa trả lời những câu
hỏi đó. Qua mô hình Cox, ông đã gián tiếp cứu vô số bệnh nhân trên toàn thế
giới. Qua mô hình đó, ông cũng đã làm thay đổi cách phân tích của các nhà khoa
học, kinh tế học, xã hội học, công nghệ, v.v. và giúp họ có những khám phá có
ích cho đời. Nhìn như thế, chúng thấy mức độ ảnh hưởng của David Cox quả là to
lớn, và khó có thể đo lường bằng chỉ tần số trích dẫn. Do đó, không ngạc nhiên
khi 3 năm trước, Tạp chí Nature xếp công trình "Cox's model" là một trong 100
công trình có ảnh hưởng lớn nhất trong lịch sử khoa học ("top
100 most-cited papers of all time for all fields")
(1).
Trong
sự nghiệp 50 năm, ông công
bố tất cả 364 bài báo khoa học. Những nghiên cứu của ông trải dài và rộng đến
nổi có hai nhà khoa học là David Hand và A. M. Herzberg phải biên tập thành hai
tập sách (xem cuốn "Selected
papers of Sir David Cox"). Ngoài ra, ông còn viết một số sách rất hay và rất dễ
hiểu. Hai cuốn tôi yêu thích nhất và muốn nhân dịp này giới thiệu đến các bạn
là:
· "Applied
Statistics", ông viết cùng với học trò là Elizabeth Snell, trong đó ông trình
bày những vấn đề thực nghiệm hết sức lí thú và dùng mô hình thống kê để giải
đáp.
· Cuốn
thứ hai là "Analysis of Binary Data", trong đó ông mô tả mô hình hồi qui
logistic cho các dữ liệu dạng nhị phân. Khoảng 30 năm trước, thầy tôi yêu cầu
tất cả sinh viên dịch tễ học phải đọc và học cuốn này. Tuy chỉ có khoảng 200
trang khổ nhỏ, mà lúc đó giá gần 50 AUD!
· Ngoài
ra, cuốn "Principles of applied
statistics" cũng thuộc lại gối đầu giường cho những ai quan tâm đến ứng dụng
thống kê trong khoa
học.
Ông
được trao 20 bằng Doctor of Science từ các đại học khắp thế giới. Năm 2016 ông
được trao giải "International Prize in Statistics" (giải thưởng ngang hàng với
Abel trong toán và Nobel trong khoa học). Nhưng ông vẫn chỉ muốn xem mình là một
nhà khoa học sử dụng thống kê học ("I would like to think of myself as a
scientist, who happens largely to specialise in the use of
statistics")
===
(1)
http://www.nature.com/news/the-top-100-papers-1.16224
EmoticonEmoticon