Thống k
Nguyễn Văn Chức – chucnv@ud.edu.vn
Ta biết rằng 4 lĩnh vực liên quan của khai phá dữ liệu gồm thống kê (statistics), Máy học (Machine Learning), Cơ sở dữ liệu (Database) và biễu diễn tri thức (Visualization). Trong 4 lĩnh vực này thì thống kê đóng vài trò rất quan trọng trong quá trình khai phá dữ liệu nhất là trong kiểm định kết quả của mô hình và trong biễu diễn tri thức.Bài viết này giới thiệu sơ lược về các khái niệm cơ bản của thống kê dùng trong mô tả dữ liệu như các tham số đo lường xu hướng tập trung của dữ liệu (mean, Median, mode) và đo lường sự biến thiên của dữ liệu (Rang, Variance và Standard Deviation, Standard Error). Để dễ hình dung, ta bắt đầu với ví dụ đơn giản sau:Giả sử rằng bạn chạy 100 m trong sáu lần, mỗi lần chạy bạn dùng đồng hồ đo lại thời gian chạy (tính bằng giây) và kết quả 6 lần chạy của bạn gồm sáu giá trị (còn gọi là quan sát) như sau:x={25.1, 21.2, 17.9, 23.0, 24.6, 19.5}
Dữ liệu này cho bạn biết những thông tin gì? Sau đây là một số thống kê đơn giản của dữ liệu về thời gian chạy 100m của bạn:- Thời gian chạy trung bình (mean) là 21.9 giây- Giá trị giữa (còn gọi là trung vị - median) là 22.1 giây- Thời gian chạy nhiều nhất (maximum) là 25.1 giây và thời gian chạy ít nhất (minimum) là 17.9giây. Nếu so sánh với kỷ lục thế giới về 100m là 9.78 giây thì bạn biết rằng mình chạy để tập thể dục cho khỏe chứ không phải là vận động viên điền kinh chuyên nghiệp!- Phương sai (variance) là 8.2 giây bình phương và độ lệch chuẩn (standard Deviation) là 2.9 giây

