2020 năm 06 tháng 23 ngày Máy tính Ghi chú khóa học “Đáy Tảng Máy Học” của Giáo sư Lâm Hiên Điền từ Đại học Đài Loan (Tất cả hình ảnh trong ghi chú đều trích dẫn từ tài liệu giảng dạy của Giáo sư Lâm).

1 Về Việc Học

1.1 Giới Thiệu Khóa Học

Khóa học này kết hợp lý thuyết và thực hành, bắt đầu từ nền tảng cơ bản. Nó được trình bày theo cách kể chuyện để giải quyết các câu hỏi sau:

Khi nào máy có thể học?
Tại sao máy có thể học?
Làm thế nào máy có thể học?
Làm thế nào để máy học tốt hơn?

1.2 Điều Gì Là Học Máy

Trước tiên chúng ta cần suy nghĩ điều gì là học? Con người hoặc động vật thông qua quan sát mà đạt được kỹ năng thì đó là học. Vậy học máy là gì? Máy thông qua việc quan sát dữ liệu mà học được kỹ năng. Kỹ năng là gì? Đó là sự cải thiện của một loại biểu hiện nào đó. Ví dụ như học tiếng Anh làm cho khả năng giao tiếp bằng tiếng Anh trở nên trôi chảy hơn. Một ví dụ ứng dụng: thông qua việc học dữ liệu cổ phiếu trước đây để tăng lợi nhuận đầu tư. Một ứng dụng khác: tự động nhận diện một cây.

Cách thực hiện thông thường là: liệt kê nhiều quy tắc định nghĩa về cái gì là một cây, sau đó tiến hành khớp nhưng hiệu quả không tốt.
Cách thực hiện của học máy là: thông qua việc quan sát dữ liệu tự học và tiến hành nhận diện.

Do đó, tổng kết lại những tình huống phù hợp để sử dụng học máy bao gồm:

Khi không thể thực hiện bằng chương trình thủ công (khó định nghĩa giải pháp);
Đối với dịch vụ cá nhân hóa cho các nhóm người dùng khác nhau;
…

Các yếu tố cần thiết cho học máy:

Có mẫu tiềm ẩn;
Khó thực hiện bằng chương trình;
Có dữ liệu liên quan đến mẫu.

1.3 Ứng Dụng Của Học Máy

Học máy được áp dụng trong nhiều khía cạnh của cuộc sống chúng ta:

Quần áo: hệ thống khuyến nghị, đề xuất phong cách thời trang cho khách hàng;
Ăn uống: phân tích văn bản, phân tích dữ liệu từ Twitter để đánh giá vệ sinh nhà hàng;
Nhà ở: tiêu thụ năng lượng, dự đoán mức tiêu thụ năng lượng của tòa nhà dựa trên dữ liệu xây dựng hiện tại;
Đi lại: nhận diện biển báo, nhận diện biển báo giao thông và tín hiệu giao thông;
Giáo dục: hệ thống trả lời câu hỏi, dự đoán độ khó của câu hỏi và khả năng của học sinh dựa trên hồ sơ trả lời trước đó;
Giải trí: hệ thống khuyến nghị, khuyến nghị phim, nhạc.

Một phương án có thể cho hệ thống khuyến nghị phim:

Đặc điểm của phim: phim hài, phim hành động, phim bom tấn, do Tom Cruise đóng…
Đặc điểm của phim tôi thích: thích phim hài đến mức nào? Thích phim hành động đến mức nào? Thích phim bom tấn đến mức nào? Thích phim của Tom Cruise đến mức nào…

Sau đó tính toán độ tương đồng dựa trên các giá trị đặc điểm này.

1.4 Các Phần Tử Của Việc Học

Ví dụ: có nên chấp thuận yêu cầu cấp thẻ tín dụng của một người nộp đơn hay không. Thông tin người nộp đơn như sau: Làm thế nào để mô tả vấn đề học:

x là đầu vào: thông tin người nộp đơn;
y là đầu ra: có nên cấp thẻ tín dụng hay không;
f là hàm mục tiêu chưa biết: tức là mẫu tiềm ẩn, một công thức lý tưởng để phê duyệt thẻ tín dụng f:x→y;
D là dữ liệu: mẫu đào tạo, dữ liệu lịch sử thu thập được;
g là hàm giả thuyết: càng gần f càng tốt, tức là sử dụng g:x→y để đo lường việc có nên cấp thẻ tín dụng hay không.

Quá trình học trong trường hợp phát hành thẻ tín dụng:

Hàm mục tiêu chưa biết đã tạo ra nhiều dữ liệu lịch sử;
Học máy thông qua một thuật toán học nào đó đạt được hàm giả thuyết g cuối cùng, chúng ta mong muốn g càng gần f càng tốt.

Hàm giả thuyết g là một phần của tập hợp tất cả các hàm giả thuyết, thuật toán học máy chính là tìm ra cái tốt nhất từ đó. Mô hình học máy chính là dựa trên dữ liệu để kết hợp thuật toán A với tập giả thuyết H cho phép lựa chọn, đưa ra một hàm giả thuyết g càng gần với hàm mục tiêu lý tưởng f càng tốt. Dưới đây là một ví dụ về cách xác định đầu vào x, đầu ra y, dữ liệu D, tập giả thuyết H, hàm giả thuyết g trong hệ thống khuyến nghị bài hát:

1.5 Học Máy Và Các Lĩnh Vực Liên Quan

Từ những điều đã nói, học máy là sử dụng dữ liệu để tính toán một hàm giả thuyết g gần với hàm mục tiêu f. Bây giờ hãy xem xét mối quan hệ giữa học máy và các lĩnh vực liên quan. Học máy so với khai thác dữ liệu:

Khai thác dữ liệu là sử dụng dữ liệu lớn để tìm ra những điều thú vị;
Khai thác dữ liệu truyền thống tập trung vào tính toán dữ liệu lớn, hiện nay hai lĩnh vực này có nhiều phần giống nhau, có thể hỗ trợ lẫn nhau.

Học máy so với trí tuệ nhân tạo:

Trí tuệ nhân tạo là làm cho máy có một số biểu hiện thông minh;
Học máy là một phương pháp để thực hiện trí tuệ nhân tạo.

Học máy so với thống kê:

Thống kê là sử dụng dữ liệu để suy luận về quá trình chưa winvip.club biết;
Thống kê truyền thống tập trung vào suy luận toán học, hiện nay sử dụng các phương pháp thống kê để thực hiện học máy.

2 Trả Lời Có Hay Không Trong Việc Học

2.1 Tập Giả Thuyết Perceptron

Ôn lại vấn đề phát hành thẻ tín dụng đã đề cập ở 1.4. Thông tin người nộp đơn có thể được biểu diễn bằng một vector đa chiều, mỗi chiều có một trọng số tương ứng, hàm giả thuyết h(x) là tổng tích của các trọng số với giá trị của từng chiều, nếu vượt qua một ngưỡng nhất định thì đồng ý phát hành, ngược lại từ chối. Như vậy có thể coi ngưỡng là phần thứ 0. Vì vậy h(x) có thể coi là tổng tích của trọng số từ chiều 0 đến chiều d với giá trị của các chiều tương ứng. Nó cũng có thể được coi là tích của hai vector ww và xx. Trong không gian hai chiều h(x) là một đường thẳng, trong không gian đa chiều h(x) là một siêu mặt phẳng. Perceptron chính là một bộ phân loại tuyến tính.

2.2 Thuật Toán Học Perceptron

Thuật toán học perceptron là một thuật toán cải tiến liên tục dựa trên dữ liệu, có thể cần nhiều vòng tính toán và điều chỉnh mới có thể tìm được một đường phân chia thỏa mãn. Đối với vòng thứ t tính toán, nếu ở vòng đó điểm thứ n bị phân loại sai (giá trị y của điểm đó vốn nên là +1 nhưng tính thành -1, điều này có nghĩa là góc giữa vector ww và vector xx quá lớn, gây ra tích vô hướng quá nhỏ; ngược lại, nếu giá trị y của điểm đó nên là -1 nhưng tính thành +1, điều này có nghĩa là góc giữa vector ww và vector xx quá nhỏ, gây ra tích vô hướng quá lớn), thì đặt vector ww của vòng kế tiếp là ww+yxx để cải tiến (nếu y là +1 thì là ww+xx, nghĩa là điều chỉnh góc giữa vector ww và vector xx nhỏ hơn một chút; nếu y là -1 thì là ww−xx, nghĩa là điều chỉnh góc giữa vector ww và vector xx lớn hơn một chút). Trong thực tế áp dụng thuật toán này, có thể cần nhiều vòng lặp cho đến khi tất cả các điểm đều thỏa mãn điều kiện. Dưới đây là quá trình tiến hóa của thuật toán này:

Dữ liệu ban đầu
Vòng 1: gốc đến x1 tạo thành vector khởi đầu
Vòng 2: theo vector pháp tuyến tìm được ở vòng trước để phân chia dữ liệu, phát hiện x9 bị phân loại sai (thực tế là hình tròn nhưng bị phân thành hình g88.vin chữ thập), thì điều chỉnh vector ww của vòng kế tiếp (góc nhỏ hơn một chút so với x9)
Vòng 3: theo vector pháp tuyến tìm được ở vòng trước để phân chia dữ liệu, phát hiện x14 bị phân loại sai (thực tế là hình chữ thập nhưng bị phân thành hình tròn), thì điều chỉnh vector ww của vòng kế tiếp (góc lớn hơn một chút so với x14)
Tiếp tục như vậy cho đến khi may mắn tìm được một đường phân chia trong một vòng nào đó.

Nhưng vấn đề của thuật toán học perceptron là không chắc chắn sẽ tìm được một trạng thái dừng.

[1] [2]