Bài giảng về xác suất thống kê: Xác suất là gì ? (1)

 

Updated: 11/Sep/2009

§1 của Chương “Xác suất là gì”. Trong phần này:

- Xác suất là gì

- 3 tiên đề về sự nhất quán xủa xác suất

- Xác suất phụ thuộc vào những gì ?

- Tính xác suất bằng thống kê

Hầu như mọi người đều biết đến khái niệm xác suất. Tuy nhiên không phải ai cũng hiểu rõ những tính chất cơ bản của nó. Ví dụ như sự phụ thuộc vào thông tin của xác suất (mỗi khi có thông tin mới thì xác suất thay đổi) hay bị bỏ qua. Và nhiều người quan niệm rằng mỗi sự kiện chỉ có một xác suất (tức là chỉ có một lời giải đúng cho câu hỏi: xác suất của sự kiến đó bằng bao nhiêu), trong khi thực ra hai người quan sát khác nhau có thể tính ra hai giá trị xác suất khác nhau cho cùng một sự kiện và cả hai đều “đúng”, nếu như họ có những thông tin khác nhau về sự kiện đó. Bởi vậy tôi muốn nhấn mạnh những điều đó ở đây.

Trước khi đi vào lý thuyết, tôi xin đưa ra đây một câu đố có liên quan đến xác suất. Giả sử có một trò chơi trên TV như sau: có 3 cánh cửa, đằng sau 1 trong 3 cánh cửa đó là 1 món quà lớn, còn sau 2 cửa còn lại không có gì. Người chơi được chọn 1 trong 3 cánh cửa, nếu chọn đúng cửa có quà thì được nhận quà. Sau khi người chơi đã chọn 1 cửa, người hướng dẫn chương trình mở một trong hai cửa còn lại ra, nhưng sẽ chỉ mở cửa không có quà. Sau đó người chơi được quyền chọn, hoặc là giữ cái cửa mình chọn ban đầu, hoặc là đổi lấy cái cửa chưa được mở còn lại. Theo bạn thì người chơi nên chọn phương án nào ? Vì sao ? Hãy thử nghĩ về nó một chút trước khi tiếp tục đọc.

Xác suất là gì ?

Xác suất của một sự kiện (hay tình huống giả định) là khả năng xảy ra sự kiện (hay tình huống giả định) đó, được đánh giá dưới dạng một số thực nằm giữa 0 và 1.

Khi một sự kiện không thể xảy ra thì xác suất của nó bằng 0. Ví dụ như xác suất của sự kiện “có người sống trên mặt trời” bằng 0.

Khi một sự kiện chắn chắn đã hoặc sẽ xảy ra thì xác suất của nó bằng 1 (hay còn viết là 100%). Ví dụ như sự kiện “tôi được sinh ra từ trong bụng mẹ” có xác suất bằng 1.

Khi một sự kiện có thể xảy ra và cũng có thể không xảy ra, và chúng ta không biết nó có chắn chắn xảy ra hay không, thì chúng ta có thể coi xác suất của nó lớn hơn 0 và nhỏ hơn 1. Sự kiện nào được coi là càng dễ xảy ra thì có xác suất càng lớn (càng gần 1), và ngược lại nếu càng khó xảy ra thì xác suất càng nhỏ (càng gần 0). Ví dụ tôi mua một vé xổ số. Tôi không biết nó sẽ trúng giải hay không, có thể có mà cũng có thể không. Nếu như cứ 100 vé xổ số chỉ có 1 vé trúng giải, thì tôi sẽ coi xác suất trúng giải của vé của tôi là 1%.  Con số 1% ở đây chính là tần số, hay tỷ lệ trúng giải của các vé xổ số: nó bằng số các vé trúng giải chia cho tổng số các vé.

Không những chỉ các sự kiện trong tương lai, mà cả các sự kiện trong quá khứ, mà chúng ta thiếu thông tin để có thể biết chắc là chúng đã thực sự xảy ra hay không, thì chúng ta vẫn có thể gán cho các sự kiện đó một xác suất nào đó, ứng với độ tin tưởng của chúng ta về việc sự kiện đó đã thực sự xảy ra hay không. Ví dụ như một ông giáo sư bạn tôi có từng làm việc cho KGB hay không ? Tôi không biết. Nhưng tôi nghe nói có một số nhỏ các giáo sư từng làm việc cho KGB. Bởi vậy theo tôi xác suất “bạn tôi từng làm cho KGB” là một số nhỏ nhưng lớn hơn 0.

3 tiên đề về sự nhất quán của xác suất

Tiên đề 1. Như đã viết phía trên, nếu X là một sự kiện (giả định) và ký hiệu p(X) là xác suất của X thì

 0 \leq p(X) \leq 1

Tiên đề 2. Nếu X là một sự kiện, và ký hiệu \overline{X} là sự kiện “phủ định của X” thì

p(X) + p(\overline{X}) = 1

Ý nghĩa triết học của tiên đề 2 tương đối hiển nhiên: Trong hai sự kiện “X” và “phủ định của X” có 1 và chỉ 1 sự kiện xảy ra. Nếu “X” càng có nhiều khả năng xả ra thì “phủ định của X” càng có ít khả năng xảy ra, và ngược lại.

Ví dụ. Một học sinh đi thi vào một trường đại học. Nếu xác suất thi đỗ là 80% thì xác suất thi trượt là 20% (= 100% – 80%), chứ không thể là 30%, vì nếu xác suất thi đỗ là 80% và xác suất thi trượt là 30% thì không nhất quán.

Ví dụ. Tôi tung một đồng tiền, khi nó rơi xuống thì có thể hiện mặt sấp hoặc mặt ngửa. Tổng xác suất của hai sự kiện “mặt sấp” và “mặt ngửa” bằng 1. Nếu tôi không có lý do đặc biệt gì để nghĩ rằng mặt nào dễ hiện lên hơn mặt nào, thì tôi coi rằng hai mặt có xác suất hiện lên bằng nhau. Khi đó sự kiện “mặt ngửa” có xác suất bằng sự kiện “mặt sấp” và bằng 1/2.

Tiên đề 3. Với hai sự kiện XY, ta sẽ ký hiệu sự kiện “cả X và Y đều xảy ra” bằng X \cap Y và sự kiện “ít nhất một trong hai sự kiện X hoặc Y xảy ra” bằng X \cup Y. Khi đó nếu hai sự kiện XY không thể cùng xảy ra, thì xác suất của sự kiện “xảy ra X hoặc Y” bằng tổng các xác suất của X và của Y:

Nếu p(X \cap Y) = 0 thì p(X \cup Y) = p(X) + p(Y)

Ví dụ: Một học sinh được cho điểm một bài kiểm tra. Có thể được 7 điểm, có thể được 8 điểm, hoặc có thể được điểm khác, nhưng không thể vừa được 7 điểm vừa được 8 điểm. Bởi vậy p((7d) \cup (8d)) = p(7d) + p(8d)

Tiên đề 3 có thể phát biểu một cách tổng quát hơn như sau:

Tiên đề 3′. Nếu X và Y là hai sự kiện bất kỳ thì

p(X \cup Y) = p(X) + p(Y) - p(X \cap Y)

Tiên đề 3′ tương đương với tiên đề 3. (Bài tập: chứng minh sự tương đương này).

Xác suất phụ thuộc vào những gì ?

Xác suất của một sự kiện không nhất thiết phải là một hằng số, mà nó có thể thay đổi, phụ thuộc vào nhiều yếu tố. (Từ “sự kiện” ở đây hiểu theo nghĩa thông thường, chứ không phải theo nghĩa “một tập hợp trong một không gian xác suất với 1 độ đo xác suất đã cố định” trong mô hình toán học)

Xác suất thay đổi theo thời gian. Ví dụ, ông Obama được bầu làm tống thống Mỹ vào tháng 11/2008. Từ trước lúc bầu cử mấy tháng, có sự cạnh tranh ác liệt giữa ông ta và đối thủ chính của ông ta là ông McCain, và một người quan sát bên ngoài có thể nhận định là hai ông có khả năng được bầu cử ngang nhau (tức là xác suất được bầu của mỗi ông quãng 50%). Nhưng khi kết quả bầu cử được công bố trọn vẹn, thì xác suất được bầu của Obama chuyển thành 100% (tức là ông ta đã chắc chắn được bầu). Trước đó 1 năm, ông Obama là một người chưa được nhiều người biết đến và còn phải tranh cử với bà Clinton và các ứng cử viên khác trong Đảng của mình, và khi đó, đối với quan sát viên bên ngoài, xác suất được bầu làm tổng thống của Obama không phải 100%, cũng không phải 50%, mà nhỏ hơn thế nhiều.

Xác suất phụ thuộc vào thông tin. Tôi lấy bài toán đố về chò trơi trên TV viết phía trên làm ví dụ. Gọi tên cửa mà người chơi chọn lúc đầu là 1, cửa không có quà mà người hướng dẫn chương trình mở ra là B, và cửa còn lại là C. Vào thời điểm ban đầu, không có thông tin gì về cửa nào phía sau có quà, thông tin duy nhất là 1 trong 3 cửa có quà. Không có cơ sở gì để cho rằng cửa nào có nhiều khả năng có quà hơn cửa nào, bởi vậy vào thời điểm ban đầu ta coi p(A)= p(B) = p(C) = 1/3. Nhưng sau khi cửa B được mở ra, thì ta có thêm một thông tin mới, là cửa B không có quà. Như vậy thông tin mới này làm thay đổi xác suất của B: bây giờ ta có p(B) = 0. Không chỉ xác suất của B thay đổi, mà tổng xác suất của A và C bây giờ cũng thay đổi: p(A) + p(C) = 1 thay vì bằng 2/3 như trước. Như vậy ít ra một trong hai số p(A) hoặc p(C) thay đổi, hoặc là cả hai. Xác suất p(A) có thay đổi vì thông tin mới này không ? Câu trả lời là không (Giải thích vì sao không ?). Chỉ có p(C) là thay đổi: sau khi người hướng dẫn chương trình mở cửa B, thì ta có p(A) = 1/3p(C) = 2/3. Như vậy người chơi nên đổi cửa A lấy cửa C thì dễ thắng hơn.

Xác suất phụ thuộc vào điều kiện. Chúng ta sẽ bàn về xác suất có điều kiện và công thức tính xác suất có điều kiện ở một phần sau. Điều tôi muốn nói ở đây là, mọi xác suất đều có thể coi là xác suất có điều kiện, và đều phụ thuộc vào những điều kiện nào đó, có thể được nói ra hoặc không nói ra (điều kiện hiểu ngầm). Ví dụ, khi chúng ta nói “khi tung cái xúc sắc S, xác suất để hiện lên mặt có 3 chấm là 1/6”, chúng ta hiểu ngầm S là một cái xúc sắc đều đặn, các mặt đều có khả năng xuất hiện như nhau. Nhưng nếu S là một cái xúc sắc méo mó, nhẹ bên này nặng bên nọ (điều kiện khác đi), thì hoàn toàn có thể là xác suất để khi tung hiện lên mặt có 3 chấm sẽ khác 1/6. Một ví dụ khác là xác suất xảy ra tai nạn khi lái ô tô: khi người lái xe khoe mạnh tỉnh táo, thì xác suất xảy ra tai nạn thấp, còn khi vẫn người lái đó bị say rượu hoặc buồn ngủ gật, thì xác suất xảy ra tai nạn cao hơn, v.v. Khi chúng ta biết thêm một điều kiện mới, tức là có thêm một thông tin mới, bởi vậy sự phụ thuộc vào điều kiện của xác suất cũng có thể coi là sự phụ thuộc vào thông tin.

Xác suất phụ thuộc vào người quan sát, hay là tính chủ quan của xác suất. Cùng là một sự kiện, nhưng hai người quan sát khác nhau có thể tính ra hai kết quả xác suất khác nhau, và cả hai đều “có lý”, bởi vì họ dựa trên những thông tin và phân tích khác nhau. Ví dụ như, có chuyên gia tài chính đánh giá rằng cổ phiếu của hãng Vinamilk có nhiều khả năng đi lên trong thời gian tới, trong khi lại có chuyên gia tài chính khác đánh giá rằng cổ phiếu của hãng đó có nhiều khả năng đi xuống ít khả năng đi lên trong thời gian tới. Quay lại trò chơi truyền hình: với người chơi thì p(A) = 1/3, nhưng đối với người dẫn chương trình thì p(A) không phải là 1/3, mà là 0 hoặc 1, vì người đó biết ở đằng sau cửa A có quà hay không.

Tính xác suất bằng thống kê

Đối với những hiện tượng xảy ra nhiều lần, thì người ta có thể dùng thống kê để tính xác suất của sự kiện xảy ra hiện tượng đó. Công thức sẽ là

p(X) = N(X) / N(total)

ở đây N(total) là tổng số các “mẫu”, và N(X) là số các “mẫu” thỏa mãn điều kiện “xảy ra X”.

Ví dụ. Có một số số liệu sau đây về tai tạn ô tô và máy bay. Trong những năm 1989-1999, trên toàn thế giới, trung bình mỗi năm có khoảng 18 triệu chuyến bay, 24 tai nạn máy bay chết người, và 750 người chết trong tai nạn máy bay. Cũng trong khoảng thời gian đó, ở nước Pháp, trung bình mỗi năm có khoảng 8000 người chết vì tai nạn ô tô, trên tổng số 60 triệu dân. Từ các số liệu này, chúng ta có thể tính: Xác suất để một người ở Pháp bị chết vì tai nạn ô tô trong một năm là 8000/60000000 = 0,0133%. Xác suất để đi một chuyến bay gặp tai nạn chết người là 24/18000000 = 0,000133%, chỉ bằng 1/100 xác suất bị chết vì tai nạn ô tô trong 1 năm. Nếu một người một năm bay 20 chuyến , thì xác suất bị chết vì tai nạn máy bay trong năm là 20 \times  0,000133\% = 0,00266\%  , bằng 1/5 xác suất bị chết vì tai nạn ô tô trong năm.

Ví dụ. Có một loại thuốc mới để chữa một bệnh ung thư, được đem dùng thử cho 200 người. Sau 1 năm thấy có 72 người khỏi hoàn toàn (không còn vết ung thư). Khi đó ta có thể tính xác suất để chữa khỏi hoàn toàn được bệnh sau 1 năm dùng thuốc này là 72/200 = 36%. Tất nhiên, đấy chỉ là “con số ước lượng”, và khi đem ra dùng cho 10000 bệnh nhân, tỷ lệ chữa được khỏi bệnh sau 1 năm có thể không phải là 36% nữa mà là khác đi, tuy rằng người ta kỳ vọng rằng nếu có sai khác đi thì cũng sai khác không nhiều.

Cơ sở toán học cho việc dùng thống kê để tính xác suất, là luật số lớn (và các định lý giới hạn) mà chúng ta sẽ tìm hiểu trong những phần sau.

Print Friendly
 

49 comments to Bài giảng về xác suất thống kê: Xác suất là gì ? (1)

  • admin MonsterID Icon admin

    @lao_acky

    Tôi có giải thích điều này trong bản PDF mà tôi để trên mạng:

    sigma-đại số là đại số, mà ở trong đó cho phép làm phép toán cộng một chuỗi vô hạn các phần tử
    (đại số thông thường thì các phép cộng chỉ là cộng hữu hạn số phần tử với nhau)
    nó như là phép lấy tổng của chuỗi trong giải tích

    người ta (ông Kolmogorov) đưa vào khái niệm sigma-đại số
    chính là để làm chặt chẽ hóa việc sử dụng các công cụ giải tích (lấy giới hạn) trong XS.

  • Hoài Phong MonsterID Icon Hoài Phong

    Hay thiệt đó ^^. Thật dễ hiểu. Cảm ơn thầy!

  • hằng MonsterID Icon hằng

    cảm ơn thầy bài viết của thầy thật dễ hiểu mong thầy gửi những bài hoc tiếp của chương sau có nội dung dễ hiểu như thế này

  • hằng MonsterID Icon hằng

    thầy có thể gửi một số bài về và một số ví dụ về xác suất thống kê của bộ môn thống kê xã hội của khoa khoa học xa hội đươc không ví dụ trong sách không cụ thêr và dõ dàng đôi khi không thực tế vì là dân khối c nên học rất khó hiểu
    Nhất là xấc suất thông kê thể hiện qua biểu đồ và đồ thị

  • ngoc_anh MonsterID Icon ngoc_anh

    cam on thay

  • Hảo MonsterID Icon Hảo

    Cảm ơn giáo sư về sự hệ thống bài giảng dễ hiểu của giáo sư về xstk. Mong được găp giáo sư trong một dịp thích hợp để được học hỏi thêm. Em cũng từng là học trò của Gs Đỗ Đức Thái.

  • chau MonsterID Icon chau

    Chao thay
    Toi xin hoi thay mot bai toan ve xac xuat, mong thay giup cho cang som cang tot.
    Cau hoi : Nguoi A gieo 2 lan voi mot con xuc xac , con nguoi B chi gieo mot lan voi mot con xuc xac
    Vay xin hoi xac xuat cua nguoi A la bao nhieu ? va cua nguoi B la bao nhieu ?

    Xin cam on thay rat la nhieu
    Chau

  • admin MonsterID Icon admin

    @ chau

    Đề bài xác suất của anh/chị chưa đủ rõ ràng để có lời giải.
    Thay vì nói “xác suất của người A bằng bao nhiêu”, cần nói
    rõ hơn, chẳng hạn “xác suất để người A được hai con 3
    bằng bao nhiêu”

Leave a Reply

  

  

  

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Spam Protection by WP-SpamFree