NEJM – Điều trị bệnh nhân, không phải giá trị P
Emil Hodzic-Santor, B.Sc.
Nhiều nhà thống kê rất thất vọng khi các bác sĩ lâm sàng được dạy cách chuyển đổi kết quả liên tục thành giá trị nhị phân để tạo điều kiện thuận lợi cho việc ra quyết định.
Một người có mức hemoglobin A1c từ 6,5% trở lên bị tiểu đường, trong khi một người có mức hemoglobin A1c từ 6,4% thì không. Một người có mức hemoglobin là 6,9 g/dl cần truyền máu, trong khi một người có mức hemoglobin là 7,1 g/dl thì không.
Mặc dù cách tiếp cận này đơn giản hóa việc ra quyết định, nhưng nó lại loại bỏ thông tin có giá trị và có thể dẫn đến kết luận không chính xác. Những nguy cơ như vậy cũng tồn tại khi các bác sĩ lâm sàng giải thích một nghiên cứu có giá trị P nhỏ hơn 0,05 là “tích cực”, nhưng một nghiên cứu có giá trị P, ví dụ, là 0,051 là “tiêu cực”.
Hai thử nghiệm ngẫu nhiên “tiêu cực” gần đây được công bố trên Tạp chí Y học New England NEJM và một phân tích tổng hợp dữ liệu bệnh nhân cá nhân “tích cực” đi kèm của hai thử nghiệm trong số này của NEJM Evidence cung cấp các ví dụ nổi bật về điểm này.
Hai thử nghiệm ngẫu nhiên đang được đề cập là thử nghiệm điều trị dự phòng Levofloxacin ở trẻ em tiếp xúc với MDR-TB (TB-CHAMP) và thử nghiệm Levofloxacin để phòng ngừa bệnh lao đa kháng thuốc (VQUIN). Cả hai thử nghiệm đều đánh giá hiệu quả của levofloxacin so với giả dược trong việc phòng ngừa bệnh lao (TB) ở những người tiếp xúc với những người mắc bệnh lao đa kháng thuốc. TB-CHAMP là thử nghiệm mù đôi và tuyển dụng 922 trẻ em có bằng chứng nhiễm Mycobacterium tuberculosis tiềm ẩn hoặc sống chung với HIV, và kết quả chính là bệnh lao mới phát hiện được trong thời gian theo dõi trung bình khoảng 7 tháng.
Độ tuổi trung bình của bệnh nhân là 2,8 tuổi; 454 (49,2%) là nam giới và hầu hết sống ở Nam Phi.1 Thử nghiệm VQUIN cũng là thử nghiệm mù đôi và tuyển dụng 2041 người tham gia có bằng chứng về nhiễm trùng M. tuberculosis tiềm ẩn, HIV hoặc suy dinh dưỡng. Kết quả chính là bệnh lao mới phát hiện được trong thời gian theo dõi trung bình là 30 tháng. Độ tuổi trung bình của bệnh nhân là 40 tuổi; 735 (36,0%) là nam giới và hầu hết sống tại Việt Nam.
Đối với thử nghiệm TB-CHAMP, ước tính điểm cho kết quả chính là tỷ lệ nguy cơ là 0,44 (khoảng tin cậy 95% [CI], 0,15 đến 1,25; P = 0,12) và đối với thử nghiệm VQUIN, tỷ lệ mắc bệnh là 0,55 (khoảng tin cậy 95%, 0,19 đến 1,62; P = 0,278).3 Khoảng tin cậy vượt quá 1 hoặc giá trị P lớn hơn 0,05 có thể dẫn đến kết luận rằng cả hai thử nghiệm đều “tiêu cực” và levofloxacin không hiệu quả trong việc phòng ngừa bệnh lao ở những quần thể này. Tuy nhiên, cả khoảng tin cậy 95% và giá trị P đều không được coi là biển báo cho việc ra quyết định lâm sàng.
Nguồn gốc của giá trị P có từ cuốn Phương pháp thống kê dành cho nghiên cứu viên Statistical Methods for Research Workers, của Ronald A. Fisher, trong đó 0,05 được chọn làm ngưỡng “thuận tiện”. Đối với phân phối chuẩn, mức ý nghĩa nhỏ hơn 0,05 tương ứng với xác suất giá trị lớn hơn 1,96 (hoặc khoảng 2) độ lệch chuẩn so với giá trị trung bình của phân phối.
Xem xét kỹ hơn công thức của giá trị P có nguy cơ khiến người đọc buồn ngủ, nhưng có hai điểm giảng dạy quan trọng ẩn chứa trong ký hiệu toán học.
🍀Đầu tiên, giá trị P là sự kết hợp giữa độ chính xác và quy mô hiệu ứng. Một cách tiếp cận rõ ràng hơn sẽ bao gồm hai khía cạnh này riêng biệt — một lý do chính tại sao ước tính điểm và 95% CI thường được ưa chuộng hơn giá trị P.
🍀Thứ hai, giá trị P có mối quan hệ nghịch đảo với quy mô mẫu. Nói một cách đơn giản, các nghiên cứu nhỏ có nhiều khả năng có giá trị P lớn hơn và các nghiên cứu lớn có nhiều khả năng có giá trị P nhỏ. Không có gì ngạc nhiên khi các phân tích tổng hợp dữ liệu bệnh nhân riêng lẻ của hai thử nghiệm này có giá trị P nhỏ hơn so với các thử nghiệm ban đầu.
Các tác giả đã lên kế hoạch tiến hành phân tích tổng hợp dữ liệu bệnh nhân riêng lẻ do có những điểm tương đồng trong thiết kế thử nghiệm của VQUIN và TB-CHAMP và tỷ lệ biến cố thấp hơn dự kiến trong mỗi thử nghiệm. Các tác giả cảm thấy điều này đặc biệt quan trọng vì có khoảng 500.000 ca lao kháng đa thuốc mới được chẩn đoán mỗi năm, nhưng vẫn thiếu các biện pháp điều trị dự phòng. Phân tích tổng hợp dữ liệu cấp độ bệnh nhân từ nhiều thử nghiệm trong kịch bản này là hợp lý vì điểm mạnh cốt lõi của cách tiếp cận như vậy là tăng sức mạnh thống kê (một lần nữa, do quy mô mẫu lớn hơn). Tuy nhiên, có ba cảnh báo quan trọng cần cân nhắc khi diễn giải kết quả phân tích tổng hợp bệnh nhân riêng lẻ.
Đầu tiên, sự cân bằng của các đặc điểm cơ bản đạt được thông qua phân nhóm ngẫu nhiên có thể bị phá vỡ và sự mất cân bằng có thể phát sinh trong tập dữ liệu kết hợp. Điều này có thể là do sự không nhất quán trong quần thể hoặc thiết kế của từng thử nghiệm.
Thứ hai, nếu các thử nghiệm không có quy mô mẫu hoặc thời gian theo dõi bằng nhau, thì kết quả chủ yếu được thúc đẩy bởi thử nghiệm lớn hơn và/hoặc dài hơn trong hai thử nghiệm. Ví dụ, thử nghiệm VQUIN lớn gấp đôi TB-CHAMP và thời gian theo dõi đối với kết quả chính dài hơn gấp bốn lần.
Thứ ba, điều quan trọng là phải hỏi liệu các thử nghiệm riêng lẻ có đủ bệnh nhân tương tự để cho phép phân tích tổng hợp hay không. Một lần nữa, độ tuổi trung bình là 40 tuổi (khoảng tứ phân vị: 28 đến 52 tuổi) đối với thử nghiệm VQUIN và 2,8 tuổi trong thử nghiệm TB-CHAMP (khoảng tứ phân vị: 1,3 đến 4,2 tuổi). Sự phân bố độ tuổi khác biệt rõ rệt của hai thử nghiệm là một hạn chế tiềm ẩn quan trọng của phân tích tổng hợp.
Kết quả chung từ phân tích tổng hợp dữ liệu bệnh nhân cá nhân cung cấp ước tính điểm là 0,41 với CI 95% từ 0,18 đến 0,92 và giá trị P là 0,03.
Người đọc tinh ý sẽ lưu ý rằng ước tính điểm là 0,41 phản ánh chặt chẽ ước tính điểm từ TB-CHAMP, 0,44 và từ VQUIN, 0,55. Việc chú ý nhiều hơn đến ước tính điểm và CI 95% và ít chú ý hơn đến giá trị P là một bài học quan trọng. Quan điểm này cũng được Hiệp hội Thống kê Hoa Kỳ chia sẻ trong bài báo được trích dẫn rộng rãi của họ Tuyên bố của ASA về Giá trị P: Bối cảnh, Quy trình và Mục đích [The ASA’s Statement on P-Values: Context, Process, and Purpose]
Chỉ áp dụng ngưỡng giá trị P hoặc 95% CI để xác định liệu một phương pháp điều trị có hiệu quả hay không là một sự đơn giản hóa quá mức. Có nhiều yếu tố khác cần cân nhắc, bao gồm các yếu tố lâm sàng (ví dụ: tác dụng phụ của phương pháp điều trị, chi phí, mức độ nghiêm trọng của tình trạng lâm sàng), liệu có phương pháp điều trị nào khác cho tình trạng này hay không (trước các thử nghiệm này, không có lựa chọn điều trị nào được chứng minh để phòng ngừa MDR-TB) và thiết kế nghiên cứu (ví dụ: bao gồm giả dược, thời gian theo dõi), chỉ để nêu một vài ví dụ. Điều tương tự cũng đúng khi bác sĩ giải thích kết quả xét nghiệm trong phòng thí nghiệm của bệnh nhân.
Có lẽ câu nói “Chúng tôi điều trị bệnh nhân, không phải kết quả xét nghiệm” có thể được bổ sung thành “Chúng tôi điều trị bệnh nhân, không phải giá trị P”.
Tham khảo
Hesseling AC, Purchase SE, Martinson NA, et al. Levofloxacin preventive treatment in children exposed to MDR-TB. N Engl J Med 2024.
Fox GJ, Nguyen VN, Nguyen CB, et al. Levofloxacin for the prevention of multidrug-resistant tuberculosis in Vietnam. N Engl J Med 2024.
World Health Organization. WHO consolidated guidelines on tuberculosis: module 1: prevention — tuberculosis preventive treatment. 2nd ed. Geneva: World Health Organization, 2024:230 (https://www.ncbi.nlm.nih.gov/books/NBK607290/).
Kennedy-Shaffer L. Before P<0.05 to beyond P<0.05: using history to contextualize P-values and significance testing. Am Stat 2019;73:82-90.
Rothman KJ. Six persistent research misconceptions. J Gen Intern Med 2014;29:1060-1064.
Duong TTB, Layton C, White I, et al. Individual participant data meta-analysis of levofloxacin for the prevention of multidrug-resistant tuberculosis in household contacts. NEJM Evid 2024.
Wasserstein RL, Lazar NA. The ASA statement on P-values: context, process, and purpose. Am Stat 2016;70:129-133.
Trích NEJM Evid 2025;4(1) DOI: 10.1056/EVIDe2400405