Học tập có giám sát và không giám sát

Học tập có giám sát và không giám sát

Với tiềm năng biến đổi toàn bộ các ngành công nghiệp, trí tuệ nhân tạo từ lâu đã được công nhận là đi đầu trong tiến bộ công nghệ.

Ngày nay, lĩnh vực trí tuệ nhân tạo đang nhanh chóng thích nghi và phát triển để phù hợp với quy mô ngày càng mở rộng và mức độ phức tạp ngày càng tăng của dữ liệu được tạo ra trên tất cả các ngành và lĩnh vực nghiên cứu. Do đó, có nhu cầu nghiêm trọng đối với các kỹ sư, nhà phát triển và nhà khoa học dữ liệu có kỹ năng và tham vọng thúc đẩy lĩnh vực trí tuệ nhân tạo phát triển.

Thêm học máy vào bộ kỹ năng của bạn là một cách để bắt đầu trong lĩnh vực này ngay hôm nay.

Máy học là một tập hợp con cụ thể của trí tuệ nhân tạo đã thu hút được sự chú ý như một công cụ mạnh mẽ có tiềm năng tác động lớn đến việc giải quyết các vấn đề phức tạp mà chưa có giải pháp rõ ràng.

Một phần lý do tại sao máy học lại có giá trị như vậy là do khả năng xử lý dữ liệu lớn của nó. Học máy có thể giúp xác định các mẫu ẩn trong lượng dữ liệu khổng lồ có thể khiến người bình thường choáng ngợp. Mô hình học máy cho phép chúng tôi tiếp cận với sự hỗn loạn và trích xuất thông tin có giá trị có thể giúp chúng tôi ra quyết định và dự báo xu hướng trong dữ liệu của chúng tôi.

Nếu bạn muốn tìm hiểu thêm về cách máy học hiện đang được sử dụng để giải quyết vấn đề và đang cân nhắc sự nghiệp làm việc trong lĩnh vực trí tuệ nhân tạo, thì bạn đã đến đúng chỗ! Hôm nay, chúng ta sẽ nói về một số điểm khác biệt chính giữa hai phương pháp tiếp cận trong khoa học dữ liệu: học tập có giám sát và không giám sát. Sau đó, chúng tôi sẽ xem xét một số tài nguyên bổ sung để giúp bạn bắt đầu hành trình máy học của mình.

Học máy là gì?

Học máy là một tập hợp con của trí tuệ nhân tạo (AI) nghiên cứu các thuật toán và mô hình thống kê được sử dụng bởi các hệ thống máy tính để thực hiện các tác vụ mà không được lập trình để thực hiện.

Ưu điểm chính của học máy đến từ khả năng cho phép máy tính tối ưu hóa hiệu suất của chúng mà không cần hướng dẫn rõ ràng. Thay vào đó, các lập trình viên máy tính có thể dựa vào học máy để học hỏi từ bối cảnh hiện tại và khái quát hóa thành các nhiệm vụ chưa thấy [1] để điều chỉnh chương trình của họ mà không cần can thiệp trực tiếp.

Như đã đề cập trước đây, khối lượng bộ dữ liệu khổng lồ được tạo ra ngày nay đã dẫn đến nhu cầu tương xứng trong nhiều ngành công nghiệp máy học để trích xuất dữ liệu có liên quan [2] có khả năng thúc đẩy các quyết định kinh doanh thông minh. Ở quy mô doanh nghiệp, máy học rất phù hợp để thực hiện những cải tiến lớn đối với hiệu quả của chuỗi cung ứng, tiêu thụ năng lượng và các lĩnh vực khác có ảnh hưởng đến tài chính.

Học tập có giám sát và không giám sát

Học tập có giám sát và không giám sát

Việc học có giám sát tương tự như cách một học sinh học từ giáo viên của họ. Giáo viên hoạt động như một người giám sát, hoặc, một nguồn thông tin có thẩm quyền mà học sinh có thể dựa vào để hướng dẫn việc học của họ. Bạn cũng có thể coi tâm trí của học sinh như một công cụ tính toán.

Giả sử những học sinh này đang đi thực tế đến sở thú địa phương để tìm hiểu về các loài động vật. Giáo viên cho học sinh xem từng con vật, sau đó cung cấp cho học sinh tên hoặc nhãn của con vật đó.

Nếu học sinh mắc lỗi khi cố gắng xác định một số loài động vật nhất định, giáo viên sẽ sửa lỗi của họ bằng cách cung cấp tên chính xác. Khi giáo viên tiếp tục đào tạo học sinh, học sinh bắt đầu phát triển một khuôn mẫu, hoặc mô hình, trong tâm trí của họ.

Các công cụ tính toán học cách nhận ra các mẫu và xây dựng các mô hình dựa trên dữ liệu đào tạo do người giám sát cung cấp. Khi công cụ tính toán đó được hiển thị với một phần tử không xác định hoặc không được gắn nhãn, họ có thể dự đoán nhãn cho nó dựa trên những gì họ học được từ dữ liệu đào tạo.

Học không giám sát không có người giám sát, và không có câu trả lời chính xác [3]. Trong học tập không giám sát, thông tin không được sắp xếp, thay vào đó được nhóm lại theo những điểm giống và khác nhau. Nói cách khác, việc học tập không giám sát sẽ tương tự như việc để học sinh tự khám phá sở thú để đưa ra ý tưởng của riêng mình về lý do tại sao sở thú được tổ chức theo cách chỉ dựa trên những gì họ quan sát được.

Tóm lại, sự khác biệt chính là dữ liệu đầu vào sẽ đi kèm với nhãn trong học tập có giám sát, nhưng sẽ không có bất kỳ nhãn nào trong học tập không giám sát.

Sự khác biệt đáng chú ý khác

Đặc tínhHọc tập có giám sátHọc tập không giám sát
Tính chính xácKết quả chính xác hơn
Kết quả kém chính xác hơn
Tính phức tạpÍt phức tạp hơn và dễ hiểu hơnPhức tạp hơn. Yêu cầu nhiều sức mạnh
tính toán hơn để xử lý do
dữ liệu không rõ ràng
Đầu ra/đầu vàoCác biến đầu vào và đầu ra
được cung cấp
Chỉ các biến đầu vào được cung cấp
Thời gianViệc học diễn ra ngoại tuyếnHọc tập diễn ra trực tuyến và trong thời gian thực

Học tập có giám sát

Trong phần này, chúng ta sẽ so sánh ngắn gọn giữa hồi quy và phân loại, sau đó chuyển sang cách các khái niệm đó liên quan đến bốn thuật toán học máy có giám sát phổ biến:

  • Hồi quy tuyến tính
  • Máy vectơ hỗ trợ (SVM)
  • Hồi quy logistic
  • Rừng ngẫu nhiên

Hồi quy với phân loại

Các mô hình học có giám sát đặc biệt thích hợp để xử lý các vấn đề hồi quy và các vấn đề phân loại.

Phân loại

Một phương pháp học máy là phân loại và đề cập đến nhiệm vụ lấy một giá trị đầu vào và sử dụng nó để dự đoán các giá trị đầu ra rời rạc thường bao gồm các lớp hoặc danh mục.

Hồi quy

Hồi quy đề cập đến nhiệm vụ dự đoán các giá trị đầu ra liên tục như nhiệt độ, chiều cao hoặc xu hướng thị trường chứng khoán.

Dữ liệu đào tạo

Bộ dữ liệu đào tạo có thể có nhiều định dạng khác nhau, từ văn bản đến hình ảnh, video và âm thanh. Các tập dữ liệu này chứa dữ liệu được gắn nhãn giúp đào tạo thuật toán học máy của bạn để xác định các tính năng và mẫu cụ thể trong dữ liệu. Cuối cùng, khóa đào tạo sẽ cho phép mô hình học máy của bạn xác định các tính năng và mẫu trong dữ liệu chưa được gắn nhãn.

Học tập có giám sát tập trung vào các tập hợp dữ liệu được gắn nhãn sau đây.

  • Dữ liệu phân loại: Dữ liệu đào tạo trong đó các nhãn $y_i$ đại diện cho các lớp khác nhau thay vì một giá trị số có tầm quan trọng.
  • Dữ liệu hồi quy: Dữ liệu huấn luyện trong đó các nhãn $y_i$ có giá trị quan trọng bằng số, thường là một số thực.

Hồi quy và phân loại đều là loại thuật toán học có giám sát trong đó dữ liệu đào tạo chứa nhãn $y_i$.

Hồi quy tuyến tính

Hồi quy tuyến tính lần đầu tiên được phát triển trong lĩnh vực thống kê và được sử dụng trong học máy để tạo ra các mô hình dự đoán giả định mối quan hệ tuyến tính giữa biến đầu vào (x) và biến đầu ra (y).

  • Hồi quy tuyến tính đơn giản: Một đầu vào cho x
  • Nhiều hồi quy tuyến tính: Nhiều biến đầu vào

Một ưu điểm chính của việc sử dụng mô hình hồi quy tuyến tính nằm ở tính đơn giản của nó. Khi biểu diễn một mô hình bằng phương trình tuyến tính, việc đưa ra dự đoán có thể đơn giản như giải một phương trình cho các đầu vào mà bạn chỉ định.

Máy vectơ hỗ trợ (SVM)

SVM là một thuật toán phân loại nhị phân phổ biến cung cấp một mô hình tuyến tính cho cả các bài toán phân loại và hồi quy. Trong một thời gian, SVM là sự lựa chọn mặc định vì nó cung cấp các mô hình đơn giản tránh quá lắp. Tuy nhiên, một nhược điểm của SVM là nó không thể mở rộng cho các bài toán nhiều lớp dễ dàng như các thuật toán khác.

Các vectơ hỗ trợ là các điểm dữ liệu nằm gần bề mặt quyết định nhất (hoặc siêu phẳng) [1]. Những điểm dữ liệu này là một trong những điểm khó phân loại nhất và rất quan trọng để tìm ra siêu phẳng tối ưu. Việc xóa bất kỳ điểm dữ liệu nào trong số này cuối cùng sẽ thay đổi vị trí của siêu phẳng.

Mục tiêu của SVM là tối đa hóa lề xung quanh siêu phẳng phân tách các điểm dữ liệu này.

Học tập có giám sát và không giám sát

Hồi quy logistic

Mặc dù tên của nó, mô hình hồi quy logistic thực sự là một mô hình tuyến tính để phân loại. Nó được gọi là hồi quy logistic vì nó thực hiện hồi quy trên logits [2], cho phép phân loại dữ liệu dựa trên các dự đoán xác suất của mô hình.

Giống như SVM, hồi quy logistic ước tính ranh giới phân loại bằng cách tối đa hóa biên của tất cả các điểm dữ liệu từ ranh giới. Không giống như SVM, hồi quy logistic có thể được mở rộng cho nhiều lớp một cách tương đối dễ dàng.

Rừng ngẫu nhiên

Một khu rừng ngẫu nhiên được gọi như vậy bởi vì nó thực chất là một nhóm cây quyết định!

Với thuật toán rừng ngẫu nhiên, mô hình đào tạo học cách dự đoán các giá trị của biến mục tiêu bằng cách học các quy tắc để đưa ra quyết định. Các quyết định này có thể được biểu diễn dưới dạng cây, với mỗi nhánh dẫn đến một nút quyết định. Mỗi nút chứa một thuộc tính và yêu cầu đưa ra quyết định dựa trên các tính năng có sẵn.

Rừng ngẫu nhiên được cho là một trong những thuật toán phổ biến nhất được sử dụng trong học máy có giám sát cho các bài toán hồi quy và phân loại. Tính đơn giản của thuật toán này làm cho nó dễ tiếp cận và dễ giải thích cho nhiều loại vấn đề.

Mạng nơron

Với hơn 80 tỷ tế bào thần kinh, não người dễ dàng trở thành một trong những hệ thống phức tạp nhất trên Trái đất, và thậm chí sau nhiều thập kỷ nghiên cứu, chiều sâu và bề rộng của các quá trình nhận thức của nó vẫn chưa được hiểu đầy đủ.

Mạng nơ-ron sinh học như não người đã truyền cảm hứng cho sự xuất hiện của mạng nơ-ron nhân tạo (ANN). Học sâu (DL) là một tập hợp con của học máy dựa trên công nghệ ANN và cố gắng mở rộng chức năng của máy tính bằng cách cho phép chúng học theo cách tương tự như con người.

Mạng nơ-ron là một trong những khái niệm cơ bản và đầy tham vọng nhất liên quan đến học máy. Mặc dù máy tính truyền thống rất tốt trong việc thực hiện nhiều phép tính nhanh chóng, nhưng chúng có xu hướng gặp khó khăn trong việc giải quyết các vấn đề mà bộ não sinh học có thể xử lý một cách dễ dàng, chẳng hạn như nhận dạng hình ảnh. Mạng nơ-ron nhân tạo nhằm mục đích bắt chước các quá trình nhận thức theo những cách có thể được sử dụng để thực hiện các nhiệm vụ thú vị và phức tạp hơn.

Có thể tìm thấy một ví dụ điển hình về cách mạng nơ-ron nhân tạo được sử dụng trong học máy trong DeepMind’s AlphaGo, sử dụng phương pháp học tăng cường để học hỏi từ hàng triệu ván cờ vây đã chơi với chính nó.

Các ứng dụng của học có giám sát

Học máy đã được ứng dụng thành công trong nhiều lĩnh vực và ngành khác nhau, từ nhận dạng mẫu, thị giác máy tính, kỹ thuật tàu vũ trụ, tài chính, giải trí, sinh học tính toán và y học [3]. Dưới đây là một số ví dụ thú vị về các trường hợp sử dụng cho các thuật toán học có giám sát.

Phân loại hình ảnh

Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo liên quan đến khả năng máy móc có thể đạt được hiểu biết cấp cao từ hình ảnh và video. Trọng tâm của thị giác máy tính là nhiệm vụ nhận dạng hình ảnh. Phân loại hình ảnh được sử dụng để đào tạo mạng nơ-ron bằng cách lấy hình ảnh thô và xử lý chúng thành dữ liệu có thể sử dụng cho học máy.

Các mô hình nhận dạng hình ảnh rất cần thiết cho nhiều tác vụ trực quan dựa trên máy móc như nhận dạng khuôn mặt, hướng dẫn robot tự lái hoặc giúp ô tô tự lái tránh tai nạn.

Phát hiện đối tượng

Mặc dù phân loại hình ảnh là điều cần thiết để phân loại hình ảnh có nhãn, nhưng việc phát hiện đối tượng cũng quan trọng không kém để cho chúng ta biết vị trí các đối tượng tồn tại trong một hình ảnh. Điều này được thực hiện bằng cách sử dụng các hộp giới hạn, sử dụng tọa độ (x, y) để cho chúng ta biết vị trí của từng đối tượng trong một hình ảnh.

Phát hiện bất thường

Phát hiện bất thường trong học máy đề cập đến nhiệm vụ xác định các điểm khác thường, các điểm dữ liệu bất thường và các quan sát bất thường khác trong tập dữ liệu. Việc phát hiện bất thường được giám sát yêu cầu đào tạo một bộ phân loại sử dụng hai tập dữ liệu được gắn nhãn với một tập dữ liệu được gắn nhãn là bình thường và tập dữ liệu còn lại được gắn nhãn là bất thường.

Học tập có giám sát và không giám sát

Học tập không giám sát

Các mô hình học tập không giám sát sử dụng bộ dữ liệu không có kết quả được gắn nhãn để dự đoán kết quả của dữ liệu không nhìn thấy.

Có hai loại thuật toán học không giám sát chính:

Thuật toán phân cụm: Dữ liệu được xử lý thành các cụm điểm dữ liệu có các tính năng tương tự với các điểm dữ liệu khác trong cùng một cụm

Thuật toán kết hợp: Các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu lớn được tìm thấy và sử dụng để xác định các quy tắc kết hợp cơ bản về cách thức và lý do tại sao các điểm dữ liệu nhất định được kết nối.

K-means clustering

K-mean clustering là một quá trình lặp đi lặp lại mà trước tiên tìm kiếm một số lượng cố định các cụm (K) trong tập dữ liệu. Ban đầu, các cụm này được chọn ngẫu nhiên nhưng sẽ được tính toán lại sau đó cho đến khi quán tính hoặc trong cụm-tổng-bình phương được giảm thiểu hoàn toàn.

Quán tính của cụm K-mean được giảm bớt bằng cách tính toán tâm của cụm ‘Kth’ được biểu thị bằng ‘μk’ và còn được gọi là tâm cụm, điểm trung bình hoặc đôi khi là tâm cụm. Các trung tâm của cụm chỉ đơn giản là giá trị trung bình của tất cả các điểm trong cụm đó.

Mỗi phiên bản của một điểm dữ liệu được thêm vào centroid gần nhất bằng cách tính toán các số đo về độ tương đồng hoặc khoảng cách. Sau đó, các trung tâm được tính toán lại với điểm trung bình mới của cụm. Điểm dữ liệu lại được thêm vào trung tâm cụm gần nhất và điểm trung bình được tính toán lại cho đến khi mức trung bình không còn thay đổi.

Phân tích thành phần chính (PCA)

Phân tích thành phần chính là một phương pháp rất phổ biến để thực hiện phân tích dữ liệu khám phá, nén thông tin, nén dữ liệu, xử lý hình ảnh, v.v. Tuy nhiên, nó chủ yếu được sử dụng để giảm kích thước. Thứ nguyên đề cập đến số lượng biến và thuộc tính mà dữ liệu của bạn sở hữu.

Việc có nhiều biến đầu vào có thể hạn chế nghiêm trọng chức năng và hiệu suất của thuật toán được sử dụng. Vấn đề này được gọi là lời nguyền về chiều không gian [4].

Một lý do chính đáng khác để giảm các biến đầu vào và thứ nguyên là để có được một kết quả thống kê đúng đắn và đáng tin cậy. Khi kích thước tăng lên, lượng dữ liệu cần thiết để hỗ trợ kết quả của bạn sẽ tăng theo cấp số nhân.

Các phương pháp giảm thứ nguyên như PCA hoạt động đối với các điểm dữ liệu được quan sát trong không gian chiều cao vì nó làm giảm số lượng biến trong tập dữ liệu trong khi vẫn bảo toàn thông tin cần thiết để phân tích và khám phá dữ liệu của bạn.

Với một tập dữ liệu, PCA hoạt động bằng cách chuẩn hóa kích thước của dữ liệu. Mỗi phần tử của một thứ nguyên được trừ đi giá trị trung bình của thứ nguyên tương ứng.

Các ứng dụng của học tập không giám sát

Phân đoạn hình ảnh

Phân đoạn hình ảnh là một phần mở rộng của phân loại hình ảnh liên quan đến việc chia nhỏ hình ảnh để giảm độ phức tạp trực quan của chúng. Đơn giản hóa hình ảnh có thể giúp xử lý và phân tích hình ảnh nhanh hơn và hiệu quả hơn.

Các thuật toán học máy không giám sát như phân cụm K-mean có thể được sử dụng để phân đoạn một hình ảnh dựa trên sự tương đồng của các thuộc tính pixel như màu sắc.

Giảm kích thước

Tóm lại, không gian chiều cao có thể khó hoạt động do có quá nhiều biến liên quan. Các tính năng và biến dư thừa có thể dẫn đến trang bị quá mức, đây là một hiện tượng trong thống kê trong đó mô hình thống kê khớp với dữ liệu huấn luyện của nó, ảnh hưởng đến độ chính xác của thuật toán đang được sử dụng đến mức không phù hợp [5]. Giảm kích thước có lợi cho việc cải thiện hiệu suất của các thuật toán và duy trì ý nghĩa thống kê trong kết quả vì nó loại bỏ dữ liệu dư thừa mà không loại bỏ thông tin liên quan mà các mô hình dự đoán cần.

Phân tích thành phần chính (PCA) làm giảm kích thước bằng cách chỉ trích xuất các biến bạn cần thành các nhóm dễ quản lý hơn.

Chủ đề bổ sung: học tập tự giám sát

Học tự giám sát là một nhánh tương đối mới của học máy, trong đó không có người giám sát bên ngoài. Về cơ bản, mô hình học máy tự giám sát tự đào tạo để tạo ra các nhãn của riêng mình. Điều này đặc biệt hữu ích trong xử lý ngôn ngữ tự nhiên (NLP), một nhánh của học máy liên quan đến việc cho phép máy móc xử lý và hiểu văn bản và lời nói của con người.

Ngày nay, hầu hết các mô hình xử lý ngôn ngữ tự nhiên sử dụng một số hình thức học tập tự giám sát.

Kết luận

Máy học và trí tuệ nhân tạo là những lĩnh vực tuyệt vời để khám phá cho bất kỳ ai thích giải quyết những thử thách phức tạp cao. Nếu bạn thích tìm hiểu về một số điểm khác biệt giữa học máy có giám sát và không giám sát và muốn tìm hiểu thêm, thì bạn thật may mắn.

Có rất nhiều nguồn tài nguyên có sẵn để thỏa mãn trí tò mò của bạn và củng cố kiến ​​thức của bạn về một trong những lĩnh vực khoa học máy tính thú vị nhất.

Nếu bạn mong muốn có thêm kinh nghiệm thực hành với máy học, thì Educative có một thư viện khổng lồ gồm các khóa học tương tác, thú vị như Máy học dành cho Kỹ sư phần mềm để khám phá!

Cảm ơn bạn đã theo dõi bài viết!

Các bạn có thể tham khảo các bài viết hay về JavaScript tại đây.


Hãy tham gia nhóm Học lập trình để thảo luận thêm về các vấn đề cùng quan tâm.

TỔNG HỢP TÀI LIỆU HỌC LẬP TRÌNH CƠ BẢN CHO NGƯỜI MỚI BẮT ĐẦU

KHOÁ HỌC BOOTCAMP JAVA/JAVASCRIPT/PHP TRỞ THÀNH LẬP TRÌNH VIÊN TRONG 5-6 THÁNG

Leave a Reply

Your email address will not be published. Required fields are marked *