Định lý Bayes và ứng dụng

Định lý Bayes là một công thức toán học quan trọng trong lý thuyết xác suất, mô tả cách cập nhật hoặc điều chỉnh xác suất của một giả thuyết dựa trên bằng chứng mới. Nó liên kết xác suất tiên nghiệm (prior probability) của một biến cố với xác suất hậu nghiệm (posterior probability) sau khi xem xét một số dữ liệu hoặc bằng chứng.

Công thức của Định lý Bayes:

Cho hai biến cố AB, định lý Bayes được phát biểu như sau:

P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}

Trong đó:

  • P(A|B): Xác suất có điều kiện của biến cố A xảy ra khi biết rằng biến cố B đã xảy ra (xác suất hậu nghiệm).
  • P(B|A): Xác suất có điều kiện của biến cố B xảy ra khi biết rằng biến cố A đã xảy ra (likelihood).
  • P(A): Xác suất tiên nghiệm của biến cố A xảy ra trước khi có bằng chứng B.
  • P(B): Xác suất toàn phần của biến cố B xảy ra (evidence hoặc normalizing constant).

Mở rộng cho nhiều giả thuyết:

Nếu chúng ta có một tập hợp các giả thuyết loại trừ lẫn nhau H_1, H_2, \ldots, H_n mà phủ hết không gian mẫu (tức là một trong các giả thuyết phải đúng), và chúng ta có một số dữ liệu D, thì định lý Bayes có thể được mở rộng để tính xác suất hậu nghiệm của mỗi giả thuyết H_i khi biết dữ liệu D:

P(H_i|D) = \frac{P(D|H_i) \times P(H_i)}{P(D)}

Trong đó:

  • P(H_i|D): Xác suất hậu nghiệm của giả thuyết H_i khi biết dữ liệu D.
  • P(D|H_i): Xác suất của dữ liệu D nếu giả thuyết H_i là đúng (likelihood).
  • P(H_i): Xác suất tiên nghiệm của giả thuyết H_i.
  • P(D): Xác suất toàn phần của dữ liệu D, có thể được tính bằng công thức:
    P(D) = \sum_{j=1}^{n} P(D|H_j) \times P(H_j)

Ví dụ minh họa:

Bài toán về xét nghiệm y tế:

Một bệnh hiếm gặp ảnh hưởng đến 1% dân số. Có một xét nghiệm để phát hiện bệnh này, với độ chính xác 95% (nếu người bệnh dương tính thì kết quả xét nghiệm dương tính với xác suất 0.95, và nếu người không bệnh âm tính thì kết quả xét nghiệm âm tính với xác suất 0.95). Một người được xét nghiệm và cho kết quả dương tính. Hỏi xác suất người đó thực sự mắc bệnh là bao nhiêu?

Giải:

  • Gọi B là biến cố “người đó mắc bệnh”. P(B) = 0.01 (xác suất tiên nghiệm).
  • Gọi \bar{B} là biến cố “người đó không mắc bệnh”. P(\bar{B}) = 1 - P(B) = 0.99.
  • Gọi D là biến cố “kết quả xét nghiệm là dương tính”.
  • P(D|B) = 0.95 (độ chính xác của xét nghiệm khi người bệnh).
  • P(D|\bar{B}) = 1 - 0.95 = 0.05 (xác suất dương tính giả khi người không bệnh).

Chúng ta muốn tính P(B|D), xác suất mắc bệnh khi biết kết quả xét nghiệm dương tính. Áp dụng định lý Bayes:

P(B|D) = \frac{P(D|B) \times P(B)}{P(D)}

Để tính P(D), ta sử dụng công thức xác suất toàn phần:

P(D) = P(D|B) \times P(B) + P(D|\bar{B}) \times P(\bar{B})
P(D) = (0.95 \times 0.01) + (0.05 \times 0.99) = 0.0095 + 0.0495 = 0.059

Bây giờ, ta có thể tính P(B|D):

P(B|D) = \frac{0.95 \times 0.01}{0.059} = \frac{0.0095}{0.059} \approx 0.161

Kết luận: Mặc dù xét nghiệm có độ chính xác 95% và kết quả là dương tính, xác suất người đó thực sự mắc bệnh chỉ khoảng 16.1%. Điều này là do tỷ lệ mắc bệnh trong dân số rất thấp (xác suất tiên nghiệm thấp).

Ứng dụng của Định lý Bayes:

Định lý Bayes có vô số ứng dụng trong nhiều lĩnh vực, bao gồm:

  • Y học: Chẩn đoán bệnh dựa trên triệu chứng và kết quả xét nghiệm.
  • Trí tuệ nhân tạo và học máy: Phát triển các thuật toán phân loại, lọc thư rác, nhận dạng giọng nói và hình ảnh.
  • Thống kê: Suy diễn Bayes, cập nhật niềm tin dựa trên dữ liệu.
  • Tài chính: Đánh giá rủi ro và dự đoán thị trường.
  • Khoa học: Phân tích dữ liệu thực nghiệm và cập nhật các giả thuyết khoa học.

Định lý Bayes là một công cụ mạnh mẽ để suy luận xác suất trong điều kiện có thông tin mới, giúp chúng ta đưa ra quyết định sáng suốt hơn dựa trên bằng chứng.


Discover more from Science Comics

Subscribe to get the latest posts sent to your email.

Leave a Reply

error: Content is protected !!