Sơ lược về Linear Regression

Hồi quy (Regression) là một phương pháp học có giám sát (Supervised learning) của máy học. Mục tiêu chính là tìm ra mối quan hệ giữa các đặc trưng của một vấn đề nào đó. Cụ thể hơn, từ một tập dữ liệu cho trước, ta xây dựng một mô hình (phương trình, đồ thị,…) giống nhất với tập dữ liệu, thể hiện được sự biến thiên và mối tương quan giữa các đặc trưng. Khi có một mẫu dữ liệu đưa vào, dựa vào mô hình, ta có thể dự đoán mẫu của giá trị đó.

Như hình minh họa phía trên thì ta có thể vẽ được một đường màu xanh y=3+4x để thể hiện quan hệ giữa x và y dựa vào các điểm dữ liệu huấn luyện đã biết. Thuật toán hồi quy tuyến tính sẽ giúp ta tự động tìm được đường màu xanh đó để từ đó ta có thể dự đoán được y cho một x chưa từng xuất hiện bao giờ.

Ví dụ: ta cần dự đoán giá nhà ở Hà Nội dựa vào thông tin về diện tích, vị trí, năm xây dựng của ngôi nhà thì t ở đây sẽ là giá nhà và x=(x1,x2,x3) với x1 là diện tích, x2 là vị trí, x3 là năm xây dựng.

Ta xây dựng phương trình:

image

Sau khi có được các giá trị thì ta có được phương trình cụ thể. Khi đó khi có thêm một mẫu dữ liệu của một ngôi nhà mới, chỉ cần áp dụng vào phương trình chúng ta sẽ biết được giá của ngôi nhà đó.

Trong ví dụ trên, ta thấy phương trình trên là phương trình siêu mặt phẳng (hyperplane) trong không gian đa chiều. Những mô hình tương tự như phương trình đường thẳng, phương trình mặt phẳng,… là những mô hình tuyến tính. Hồi quy tuyến tính (linear regression) là một mô hình đơn giản trong bài toán hồi quy, trong đó chúng ta dùng đường thẳng, mặt phẳng, hay phương trình tuyến tính nói chung để dự đoán xu hướng của dữ liệu. Giải bài toán hồi quy tuyến tính chính là đi tìm các tham sốimage để xác định phương trình tuyến tính.

Xác định công thức

  • Vector đầu vào: x

  • Đầu ra là một hàm tuyến tính theo x

trong đó:

là vector hàng dữ liệu đầu vào (1 thêm ở đầu cho phép toán đơn giản hơn)

là vector cột hệ số cần phải tối ứu

  • Tổng quát hóa khi dữ liệu chứa nhiễu

với e rất nhỏ và được tính theo công thức:

Ở đây ta dùng số 12để thuận tiện cho việc tính toán (khi tính đạo hàm 12 sẽ bị triệt tiêu). Chúng ta cần e2vì e = y - y có thể là số âm. Mặt khác, ta dùng phép bình phương thay vì phép trị tuyệt đối vì hàm bình phương có đạo hàm tại mọi nơi còn phép trị tuyệt đối thì không (nó không xác định tại điểm 0)

Khi có N cặp dữ liệu huấn luyện (y, X) ta cần phải tìm w sao cho sai số bình phương nhỏ nhất; ký hiệu là w

  • Giải phương trình đạo hàm theo w của hàm mất mát = 0

  • Công thức:

4 Likes

Tham số hơi không đồng nhất ở nửa trên và nửa dưới của bài viết nhé :>

Hơi nhiều bài viết như này :<

@anon26170876 Em có sự cố gắng trong bài viết đầu tiên về một mô hình Toán @@@
Tuy nhiên bài viết này anh thấy lủng củng quá.
Lần sau viết bài em nhớ dành nhiều tình cảm hơn cho người đọc nhé :smiling_face_with_three_hearts: