Thống kê cho khai phá dữ liệu

  • Thread starter Thanh Nam
  • Ngày gửi
Thanh Nam

Thanh Nam

Admin
Thành viên BQT
Quản lý cao cấp
24/4/03
3,315
1,125
113
HCM
www.famaconsulting.vn
Thống k

Nguyễn Văn Chức – chucnv@ud.edu.vn
Ta biết rằng 4 lĩnh vực liên quan của khai phá dữ liệu gồm thống kê (statistics), Máy học (Machine Learning), Cơ sở dữ liệu (Database) và biễu diễn tri thức (Visualization). Trong 4 lĩnh vực này thì thống kê đóng vài trò rất quan trọng trong quá trình khai phá dữ liệu nhất là trong kiểm định kết quả của mô hình và trong biễu diễn tri thức.Bài viết này giới thiệu sơ lược về các khái niệm cơ bản của thống kê dùng trong mô tả dữ liệu như các tham số đo lường xu hướng tập trung của dữ liệu (mean, Median, mode) và đo lường sự biến thiên của dữ liệu (Rang, Variance và Standard Deviation, Standard Error). Để dễ hình dung, ta bắt đầu với ví dụ đơn giản sau:Giả sử rằng bạn chạy 100 m trong sáu lần, mỗi lần chạy bạn dùng đồng hồ đo lại thời gian chạy (tính bằng giây) và kết quả 6 lần chạy của bạn gồm sáu giá trị (còn gọi là quan sát) như sau:
x={25.1, 21.2, 17.9, 23.0, 24.6, 19.5}​
Dữ liệu này cho bạn biết những thông tin gì? Sau đây là một số thống kê đơn giản của dữ liệu về thời gian chạy 100m của bạn:- Thời gian chạy trung bình (mean) là 21.9 giây- Giá trị giữa (còn gọi là trung vị - median) là 22.1 giây- Thời gian chạy nhiều nhất (maximum) là 25.1 giây và thời gian chạy ít nhất (minimum) là 17.9giây. Nếu so sánh với kỷ lục thế giới về 100m là 9.78 giây thì bạn biết rằng mình chạy để tập thể dục cho khỏe chứ không phải là vận động viên điền kinh chuyên nghiệp!- Phương sai (variance) là 8.2 giây bình phương và độ lệch chuẩn (standard Deviation) là 2.9 giây​
 
Khóa học Quản trị dòng tiền
Thanh Nam

Thanh Nam

Admin
Thành viên BQT
Quản lý cao cấp
24/4/03
3,315
1,125
113
HCM
www.famaconsulting.vn
Ðề: Thống kê cho khai phá dữ liệu

Đo lường số đo xu hướng tập trung (Central Tendency) Để đo lường xu hướng tập trung của dữ liệu người ta thường dùng 3 tham số đó là số trung bình (trung bình số học - Arithmetic mean hay average), số trung vị (median) và số mode.[h=3]Mean (số trung bình): Trung bình số học được tính đơn giản bằng tổng của tất cả các giá trị của dữ liệu trong mẫu chia cho kích thước mẫu.[/h]
[SUB]
20110624232240385.gif

[/SUB]​
Với dữ liệu về chạy 100m trên ta có
[SUB]
20110624232334135.gif

[/SUB]​
 
Thanh Nam

Thanh Nam

Admin
Thành viên BQT
Quản lý cao cấp
24/4/03
3,315
1,125
113
HCM
www.famaconsulting.vn
Ðề: Thống kê cho khai phá dữ liệu

[h=3]Median (trung vị):[/h]Trong lý thuyết xác suất và thống kê, số trung vị (Median) là giá trị giữa trong một phân bố chia phân bố thành 2 nhóm mà trong đó số các số trong mỗi nhóm bằng nhau. Nói cách khác, nếu m là trung vị của một phân bố nào đó thì 1/2 cá thể trong phân bố đó có giá trị nhỏ hơn hay bằng m và một nửa còn lại có giá trị bằng hoặc lớn hơn m.Median được tính như sau: Sắp xếp dữ liệu và lấy giá trị ở giữa. Nếu số giá trị là một số chẳn thì median là trung bình của 2 giá trị ở giữa. Với số liệu trên ta có median=22.1
20110624232429411.gif
Công thức chung để tính median là:
20110624232555330.gif
Ký hiệu:
20110624232642643.gif
: Số nguyên lớn nhất nhỏ hơn p ( floor function).
20110624232716148.gif
: Số nguyên nhỏ nhất lớn hơn p (ceiling function)x(p): Trả về giá trị tại vị trí p trong mẫu x sau khi đã sắp xếp x tăng dần.Trong ví dụ trên ta có n=6,
20110624232821934.gif

[h=3]Mode [/h][h=3]Mode là số có tần suất xuất hiện nhiều nhất trong mẫu. Nếu trong mẫu không có số nào xuất hiện lặp lại thì không có mode.[/h][h=3]Với mẫu dữ liệu trên thì không có mode.[/h]
 

Xem nhiều