Machine Learning – Máy học là gì ?

Machine Learning – Máy học là gì ?

Học máy, có tài liệu gọi là Máy học, (tiếng Anh: machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Ví dụ như các máy có thể “học” cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp thư vào thư mục tương ứng. Học máy rất gần với suy diễn thống kê (statistical inference) tuy có khác nhau về thuật ngữ.

Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lý được.


Có nhiều giải thuật liên quan đến lĩnh vực thú vị này, như:

SVM: xem dữ liệu như vectơ nhiều chiều rồi phân lớp kết quả

Hình trên là ảnh 3 chiều cho thấy rằng siêu phẳng (hyperplane) phân lớp các phần tử trong không gian 3 chiều thành 2 lớp khác nhau. Và theo mô hình xây dựng sẵn thì dựa vào tọa độ của siêu phẳng mà kết luận. Tất nhiên là dữ liệu sẽ có n chiều chứ không phải chỉ là 3 chiều như ảnh minh họa.

k-nearest neighboor: số láng giềng gần nhất. Có 1 ví dụ vui vui thế này, nhà bạn sống giữa 2 khu: dân trí cao và dân trí thấp, vậy nhà bạn nằm giữa 2 khu đó thì nhà bạn dân trí cao hay thấp? Người ta dựa vào số láng giềng gần nhất mà kết luận.

svm2
Số k chính là số lượng láng giềng dùng để “đánh giá bạn”, giả sử lấy k=9 (9 nhà hàng xóm) có 2 nhà dân trí thấp, 7 nhà dân trí cao, vậy người ta sẽ xem bạn là “dân trí cao”.

Naive Bayes: Bayes thơ ngây Giả sử có 1 cô gái được 2 anh chàng yêu cùng lúc, cô gái sẽ phải cân nhắc anh nào ưu điểm nhiều để cưới. Mỗi anh đều có một vài ưu điểm như: đẹp trai, tài năng, quan hệ rộng, tâm lý,… Nhưng cô không biết ưu điểm nào là quan trọng hơn ưu điểm nào, thế thì cứ liệt kê ra ưu điểm, ai nhiều hơn thì cô yêu người đó.

Vấn đề nhìn thấy rõ là: xem mức độ quan trọng của từng thuộc tính như nhau là không hợp lý, nhưng kết quả trong thực tế lại cho kết quả khá tốt. Các bạn tham khảo slide về cách tính toán xác suất cuối bài.

Và còn rất nhiều giải thuật khác hay ho thú vị nhưng rất nhức đầu, hại não. Quay lại chủ đề chính, Machine Learning cần thiết cho xử lý ở phần Object Detection. OpenCV sẽ sử dụng những thuật toán đó để học ra những quy luật của chữ số, mặt người, vật thể thành các mô hình nhận dạng, sau đó so sánh hình ảnh input với mô hình nhận dạng để tìm ra đối tượng trong ảnh.

Nói thì sơ sơ khái quát như vậy, mục đích để hiểu được Machine Learning là gì nên có thể từ ngữ không chính xác lắm, đi sâu vào nghiên cứu sẽ hiểu rõ hơn.

Share this post

Trả lời

Thư điện tử của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *