Mai nói với Parker về mức lương và thống kê
Giả sử tôi có dữ liệu về mức lương của hai công ty như sau:
✅ Mico:
$1 000 000, 37 000, 48 000, 35 000, 50 000, 90 000, 45 000, 60 000, 42 000, 74 000, 72 000$
✅ Gogog:
$1 500 000, 38 000, 60 000, 87 000, 52 000, 95 000, 45 000, 78 000, 41 000, 74 000$
🧐 Mai hỏi Parker:
“Nếu sau này cậu đi xin việc thì cậu nghĩ dựa trên năng lực bản thân, mức lương của mình nằm ở mức nào?”
🤣 Parker đáp:
“Khiêm tốn mà nói thì tôi nghĩ là mình ở mức trung bình!”
😂 Mai cười:
“Người ta thường có xu hướng đánh giá bản thân cao hơn so với thực tế. Nên, tôi nghĩ nếu anh đã nói vậy thì anh nên tìm hiểu về phân vị thứ nhất của dữ liệu về mức lương!”
💡 Phân vị thứ nhất (1st quantile) là gì?
- Khi ta sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn, trung vị (median) sẽ là điểm chính giữa, chia bộ dữ liệu thành hai phần bằng nhau.
- Một phần chứa tất cả các giá trị nhỏ hơn hoặc bằng trung vị, một phần chứa tất cả các giá trị lớn hơn hoặc bằng trung vị.
- Phân vị thứ nhất (1st quantile) chia phần nhỏ hơn tiếp theo thành hai phần bằng nhau, giúp xác định mức thấp hơn trong dữ liệu.
📌 Ví dụ với mức lương của Mico:
Dữ liệu:
$1 000 000, 37 000, 48 000, 35 000, 50 000, 90 000, 45 000, 60 000, 42 000, 74 000, 72 000$
✅ Sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn:
$35 000, 37 000, 42 000, 45 000, 48 000, 50 000, 60 000, 72 000, 74 000, 90 000, 1 000 000$
✅ Trung vị (Median) nằm ở vị trí chính giữa:
$50 000$
📌 Ví dụ với mức lương của Gogog:
Dữ liệu:
$1 500 000, 38 000, 60 000, 87 000, 52 000, 95 000, 45 000, 78 000, 41 000, 74 000$
✅ Sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn:
$38 000, 41 000, 45 000, 52 000, 60 000, 74 000, 78 000, 87 000, 95 000, 1 500 000$
✅ Trung vị (Median) là trung bình của hai số chính giữa:
$(60 000 + 74 000)/2 = 67 000$
🤣 Mai tiếp tục:
“Anh nghĩ mình ở mức trung bình? Thế thì khi đi xin việc, anh sẽ nhìn vào trung bình (mean) của mức lương hay median?”
😂 Parker:
“Chắc là trung bình! Tôi thấy thiên hạ người ta hay dùng cái đó!”
😂 Mai chọc Parker:
“Năng lực của cậu trung bình mà xin mức lương bằng trung bình của tất cả mọi người trong công ty thì ai dám nhận cậu?”
😳 Parker bối rối:
“Tại sao?”
📌 Mai giải thích về outliers và trung vị (median):
💡 Mức lương của giám đốc, CEO và một số nhân vật chủ chốt thường cao đến mức bất bình thường! Ví dụ,
- Lương kỹ sư bình thường: $75 000
- Lương tổng giám đốc: $1 000 000
🔍 Từ góc nhìn thống kê, mức lương $1 000 000 được coi là outlier, tức là một quan sát khác hẳn so với phần còn lại của dữ liệu.
📌 Trong một mẫu dữ liệu có outlier, chúng ta nên sử dụng trung vị (median) thay vì trung bình mẫu nếu muốn đo lường điểm trung tâm.
😂 Mai tiếp tục trêu Parker:
“Nếu cậu xin vào Mico mà đòi mức lương bằng trung bình của tất cả nhân viên trong công ty, thì mức đó là $350 000!”
😂 *“Trong khi đó, lương của một người học Tiến sĩ ra mới là $120 000, thì ai chịu nhận?”
🤣 Parker bật cười:
“Ờ, ha…ha…!”
It looks like your text has encoding issues, making some characters unreadable. I’ll restore the Vietnamese correctly:
Xác định Outliers và Boxplot trong Thống kê
📌 Parker hỏi Mai:
“Nếu tôi muốn xin vào Gogog, mức lương sắp theo thứ tự từ nhỏ đến lớn là:”
✅ Dữ liệu đã sắp xếp:
$38 000, 41 000, 45 000, 52 000, 60 000, 74 000, 78 000, 87 000, 95 000, 1 500 000$
💡 Parker tiếp tục:
“Nếu tôi bỏ mức lương $1 500 000 ra ngoài mẫu, thì tôi vẫn có thể dùng trung bình (mean), đúng không?”
✅ Mai trả lời:
“Trong trường hợp này thì cũng có thể tạm chấp nhận được!”
🤣 Parker phấn khởi:
“À há! Vậy là tôi nói cũng có điểm đúng chứ bộ?”
😂 Mai nhíu mày, không muốn Parker vui quá:
“Tùy từng trường hợp! Nếu anh chắc chắn rằng outlier xuất hiện do sai sót khi thu thập dữ liệu hoặc thiết bị đo lường bị hư hỏng, thì anh hoàn toàn có thể xóa nó khỏi mẫu. Nhưng nếu không rõ nguyên nhân, thì nên tìm hiểu nguyên nhân xuất hiện outlier trước.”
Outliers trong thống kê là gì?
💡 Parker hỏi:
“Một quan trắc phải khác các quan trắc trong mẫu đến cỡ nào thì mới được gọi là outlier? Ví dụ lớn hơn những cái còn lại 100 hay 1000 đơn vị hay sao?”
🤣 Mai châm chọc:
“Thông minh quá hen!”
✅ Mai lấy ví dụ:
Giả sử tôi có dữ liệu về độ dài cánh bướm tính theo milimet:
$34.5, 31.6, 30.1, 32.3, 23.9, 27.7, 28.8, 35.9, 27.3, 45.0$
✅ Nếu tôi đổi đơn vị sang nanomet:
$34 500 000, 31 600 000, 30 100 000, 32 300 000, 23 900 000, 27 700 000, 28 800 000, 35 900 000, 27 300 000, 45 000 000$
🤣 Mai cười:
“Như vậy có phải là mỗi con số cũng đã chênh nhau cả hàng triệu đơn vị rồi không? Vậy chẳng lẽ tất cả quan trắc đều là outlier?”
✅ Parker cau có hỏi:
“Chứ cô định làm sao?”
✅ Mai giải thích:
*”Trong thống kê, chúng ta không muốn kết quả phân tích dữ liệu bị ảnh hưởng quá nhiều bởi đơn vị đo lường mà chúng ta sử dụng.
Tôi muốn nhận định mà tôi có khi dùng nanomet cũng phải giống nhận định mà tôi có khi dùng centimet, inch hay mét!
Do đó, người ta thường dùng những thước đo để xác định mức độ lệch tương đối của một hoặc nhiều quan trắc so với các quan trắc khác.”*
Boxplot và cách nhận diện outlier
✅ Mai tiếp tục:
*”Nói chung thống kê là khoa học của sự tương đối.
Chưa ai định nghĩa outlier một cách cụ thể, nhưng trong biểu đồ hộp (boxplot), những điểm có khả năng là outlier thường được chỉ rõ bằng các dấu sao hoặc dấu tròn.”*
💡 Parker tò mò:
“Boxplot là cái gì?”
😆 Mai cười:
*”Là cái này nè…” rồi vẽ ra cái boxplot!”

✅ Parker nhìn vào biểu đồ hộp rồi thốt lên:
“Nhìn giống cái nhà hai ngăn với hai cái hàng rào! Sao không gọi là biểu đồ nhà mà lại gọi là biểu đồ hộp nhỉ?”
🤣 Mai ghét cái vẻ cố tỏ ra vui tính của Parker. Cô nàng châm chọc:
“Chắc chỉ có anh mới xây nhà không cửa, không mái, nên muốn vào nhà phải bay hoặc đu thừng như vậy!”
✅ Mai giải thích:
*”Chú ý cái đường đậm chính giữa là trung vị (median),
- Hai đường bên cạnh nó là phân vị thứ nhất (Q1) và phân vị thứ ba (Q3).
- Hai cái hàng rào mà anh gọi chính là hai giới hạn:
- Giới hạn dưới = $Q1 – 1.5 IQR$
- Giới hạn trên = $Q3 + 1.5 IQR$
- Interquantile range (IQR) là hiệu giữa Q3 và Q1: $IQR = Q3 – Q1$.”
✅ Parker đáp lại:
“Yên tâm đi! Nếu tôi xây nhà như vậy, nhất định là xây cho cô ở, không phải cho tôi!”
😂 Mai hét lên một tiếng rồi tiếp tục:
“Đây là dữ liệu cánh bướm tôi vừa nói…”

It looks like your text has encoding issues, making some characters unreadable. I’ll restore the Vietnamese correctly:
Mai và Parker tiếp tục câu chuyện về outliers
✅ Parker thắc mắc:
“Cái điểm hình tròn không nằm giữa giới hạn trên và giới hạn dưới nên nó có thể được xem như một outlier. Nói chung, outlier là giá trị có độ lớn khác biệt hẳn so với các giá trị khác trong dữ liệu, như thế chúng không thuộc về tổng thể này.”
✅ Parker tiếp tục:
“Nhưng chắc trong hầu hết các trường hợp, ta chỉ cần liệng cái outlier ra khỏi dữ liệu là xong nhỉ? Thường ai quan tâm đến cái đó làm gì!”
🤣 Mai phản ứng mạnh:
*”Nãy tôi vừa nói mà anh không nghe hả?
Nếu anh chắc chắn rằng outlier xuất hiện do sai sót khi thu thập dữ liệu hoặc thiết bị đo lường bị hư hỏng, thì anh hoàn toàn có thể xóa nó khỏi mẫu.
Nhưng nếu không rõ nguyên nhân, thì nên tìm hiểu nguyên nhân xuất hiện outlier trước.
Nhiều khi dữ liệu đến từ những phân phối có đuôi dài (heavy-tail distribution) thì những cái khá lớn so với những quan trắc còn lại chưa chắc đã là outlier.
Nhiều khi những cực điểm là những cái người ta phải quan tâm đến nhiều nhất!
Liệng cái gì mà liệng! Tui liệng kiến thức vào đầu anh là anh lại liệng trả!”*
Mai lấy ví dụ về phân phối cực điểm
✅ Mai kể:
*”Trong cải tiến quá trình sản xuất sợi bông tại viện Shirley, người ta thấy rằng một trong những vấn đề nan giải là độ chắc của một sợi cotton vừa được se.
Lực cần để làm đứt một sợi cotton thì khác nhau từ sợi này qua sợi khác cho dù chúng được xe dưới cùng một điều kiện.
Sau khi áp dụng lực với cường độ khác nhau, Tippet xem xét sợi dưới kính hiển vi và phát hiện ra rằng việc sợi cotton có đứt hay không thì phụ thuộc vào thể sợi yếu nhất ở bên trong nó.
Đây là một ví dụ điển hình tại sao chúng ta nên quan tâm đến distribution of the extreme (phân phối của những cực điểm).
Đối với người thường, nếu họ biết được phân phối của những cực điểm dính dáng thế nào tới phân phối của những giá trị thông thường, thì họ có thể dựa trên chiều cao của những đợt lũ hàng năm để dự đoán chiều cao của đợt lũ lớn nhất trong cả trăm năm.
Dựa vào đó thì người ta có thể tính toán chiều cao tối ưu cho việc đắp đê ngăn lũ.”
✅ Parker chưa biết “distribution” là cái chi chi, nhưng vẫn tỏ ra bình thản trước thái độ hung dữ của Mai:
“À, lần này thì tôi nhớ rồi!”
✅ Parker quay lưng đi, cất giấy hiện thực ra và vẽ thật nhanh:
- Một vài hình con sâu nhỏ.
- Một con sâu róm to đùng, to gấp 5 lần những con còn lại.
- Viết bùa chú: “This is my drawing! Turn them into real things!”
🤣 **Mai không biết Parker đang giở trò với giấy hiện thực (loại giấy có khả năng biến mọi thứ trong tranh thành hiện thực trong vòng một thời gian ngắn trước khi tan vào hư vô).
Lập tức tờ giấy biến thành hình những con sâu to gấp mười lần trong tranh, bò lổm ngổm trên bàn.
Mai muốn nghẹt thở khi thấy con sâu róm khổng lồ. Cô nàng đứng bật dậy, hét ầm lên: “Á….” rồi bỏ chạy, quên mất rằng đến thở thì nhanh hơn.
🤣 Parker cười khoái trá, hỏi với theo:
“Sâu to như vậy thì đã được xem là outlier chưa?”
✅ **Nhưng khi quay lưng đi cười khoái trá như vậy, anh không để ý rằng con sâu bò chậm đang bò lên người mình.
Khi quay lại, thấy nó đang bò lên thì anh chàng cũng hét lên, hẩy mình cho nó rơi ra, rồi… chạy mất!!!**
Discover more from Science Comics
Subscribe to get the latest posts sent to your email.