Tổ hợp, chỉnh hợp, xác suất và thống kê mô tả
Nếu một công việc có thể thực hiện theo cách A HOẶC cách B, trong đó cách A có $m$ phương án và cách B có $n$ phương án, thì tổng số cách thực hiện là:
Nếu một công việc phải thực hiện cả bước A VÀ bước B, trong đó bước A có $m$ cách và bước B có $n$ cách, thì tổng số cách thực hiện là:
Quy ước: $0! = 1$
Ví dụ: $5! = 5 \times 4 \times 3 \times 2 \times 1 = 120$
Ý nghĩa: Số cách sắp xếp $n$ phần tử khác nhau theo thứ tự.
Ví dụ: Số cách xếp 5 người vào 5 ghế là $P_5 = 5! = 120$
Ý nghĩa: Số cách chọn $k$ phần tử từ $n$ phần tử có phân biệt
thứ tự.
Ví dụ: Số cách chọn 3 người từ 10 người để xếp nhất, nhì, ba là
$A_{10}^3 = 720$
Ý nghĩa: Số cách chọn $k$ phần tử từ $n$ phần tử không phân
biệt thứ tự.
Ví dụ: Số cách chọn 3 người từ 10 người thành một nhóm là $C_{10}^3 =
120$
• Chỉnh hợp: Có thứ tự (ABC ≠ BAC)
• Tổ hợp: Không thứ tự (ABC = BAC)
⟹ $C_n^k = \frac{A_n^k}{k!}$ vì mỗi tổ hợp có $k!$ cách sắp xếp
Khai triển:
$(a+b)^n = C_n^0 a^n + C_n^1 a^{n-1}b + C_n^2 a^{n-2}b^2 + ... + C_n^n b^n$
$n(A)$ = số kết quả thuận lợi cho biến cố A
$n(\Omega)$ = tổng số kết quả có thể xảy ra
$\overline{A}$ là biến cố đối (phần bù) của A
Nếu A và B xung khắc ($A \cap B = \emptyset$):
$P(A \cup B) = P(A) + P(B)$
Nếu A và B độc lập:
$P(A \cap B) = P(A) \cdot P(B)$
Xác suất xảy ra B biết rằng A đã xảy ra.
Áp dụng: Xác suất xảy ra đúng $k$ lần thành công trong $n$ phép thử độc lập, mỗi phép thử có xác suất thành công là $p$.
Tung đồng xu 5 lần, tính xác suất được đúng 3 lần mặt ngửa:
$P = C_5^3 \cdot (0.5)^3 \cdot (0.5)^2 = 10 \cdot 0.03125 = 0.3125$
Với tần số: $\bar{x} = \frac{\sum_{i=1}^{k} x_i \cdot f_i}{n}$
Sắp xếp dãy số theo thứ tự tăng dần:
• n lẻ: Trung vị = giá trị ở vị trí $\frac{n+1}{2}$
• n chẵn: Trung vị = trung bình cộng 2 giá trị ở vị trí $\frac{n}{2}$
và $\frac{n}{2}+1$
Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
Một tập dữ liệu có thể có nhiều mốt hoặc không có mốt.
Công thức tính nhanh:
$S^2 = \frac{\sum x_i^2}{n} - \bar{x}^2 = \overline{x^2} - \bar{x}^2$
Độ lệch chuẩn càng nhỏ ⟹ dữ liệu càng tập trung quanh giá trị trung bình.
• Q₁ (25%): Trung vị của nửa dưới dữ liệu
• Q₂ (50%): Trung vị của cả dãy (= Median)
• Q₃ (75%): Trung vị của nửa trên dữ liệu
• IQR: Khoảng tứ phân vị = Q₃ - Q₁
Kỳ vọng là "giá trị trung bình" của biến ngẫu nhiên.
Quy tắc thực nghiệm:
• 68% dữ liệu nằm trong khoảng $[\mu - \sigma, \mu + \sigma]$
• 95% dữ liệu nằm trong khoảng $[\mu - 2\sigma, \mu + 2\sigma]$
• 99.7% dữ liệu nằm trong khoảng $[\mu - 3\sigma, \mu + 3\sigma]$
Xác suất giúp đánh giá độ chính xác của xét nghiệm, dự báo dịch bệnh.
Xét nghiệm có độ nhạy 95%, độ đặc hiệu 99%. Nếu 1% dân số nhiễm bệnh:
Xác suất nhiễm thật nếu dương tính:
P(\text{nhiễm}|\text{dương}) = \frac{0.95 \times 0.01}{0.95 \times 0.01 + 0.01 \times 0.99} \approx 48.9\%Công ty bảo hiểm dùng xác suất để tính phí bảo hiểm và đánh giá rủi ro.
Xác suất tai nạn năm tới: 2%. Chi phí bồi thường trung bình: 50 triệu.
Kỳ vọng chi trả: $E = 0.02 \times 50{,}000{,}000 = 1{,}000{,}000đ$
Phí bảo hiểm tối thiểu: ~1.2 triệu (bao gồm chi phí vận hành)
Nhấn "Tung" để xem phân phối xác suất thực tế so với lý thuyết
Tổng số lần tung: 0
Lý thuyết: mỗi mặt 16.67%
Tỉ lệ thắng được tính toán chính xác trong mọi game bài, xổ số.
Chọn 6 số từ 55 số. Xác suất trúng giải Jackpot:
P = \frac{1}{C_{55}^6} = \frac{1}{25,827,165} \approx 0.00000387\%Thống kê giúp đánh giá hiệu quả quảng cáo, sản phẩm mới.
Giao diện A: 500 khách, 50 mua (10%)
Giao diện B: 500 khách, 65 mua (13%)
Câu hỏi: Sự khác biệt có ý nghĩa thống kê không?
Dùng kiểm định Chi-bình phương hoặc z-test để kết luận!
Nhiều thuật toán ML dựa trên xác suất: Naive Bayes, Logistic Regression, Bayesian Networks.
Xác suất "MIỄN PHÍ" trong email spam: 80%
Xác suất "MIỄN PHÍ" trong email thường: 5%
Naive Bayes: Dùng định lý Bayes để phân loại email mới!
"70% khả năng mưa" là dựa trên phân tích thống kê nhiều mô hình khí tượng.
Chạy 100 mô hình với điều kiện khởi đầu khác nhau
Nếu 70 mô hình dự báo mưa → Xác suất mưa = 70%