Lda là gì

2. Linear Discriminant Analysis mang đến bài xích tân oán cùng với 2 classes 3. Linear Discriminant Analysis mang đến multi-class classification problems 3.1. Xây dựng hàm mất mát 4. Ví dụ bên trên Pyeo hẹp

1. Giới thiệu

Trong hai nội dung bài viết trước, tôi đã giới thiệu về thuật toán thù giảm chiều tài liệu được thực hiện rộng thoải mái độc nhất vô nhị - Principle Component Analysis (PCA). Nhỏng vẫn nói, PCA là một trong những phương thức thuộc nhiều loại unsupervised learning, Tức là nó chỉ thực hiện các vector diễn tả dữ liệu nhưng mà không sử dụng tới labels, trường hợp gồm, của tài liệu. Trong bài toán classification, dạng điển hình độc nhất vô nhị của supervised learning, Việc thực hiện labels vẫn mang đến hiệu quả phân các loại giỏi rộng.

Bạn đang xem: Lda là gì

Nhắc lại một lần nữa, PCA là phương thức giảm chiều tài liệu sao cho lượng công bố về dữ liệu, biểu hiện ngơi nghỉ tổng pmùi hương sai, được giữ gìn là các duy nhất. Tuy nhiên, trong không ít trường vừa lòng, ta ko đề xuất cất giữ lượng công bố lớn số 1 mà chỉ việc lưu giữ báo cáo quan trọng mang đến riêng rẽ bài bác toán thù. Xét ví dụ về bài xích tân oán phân lớp cùng với 2 classes được trình bày trong Hình 1.


*

Hình 1: Chiếu dữ liệu lên những đường trực tiếp khác nhau. Có hai lớp dữ liệu minch hoạ vị các điểm blue color với đỏ. Dữ liệu được bớt số chiều về 1 bằng cách chiếu bọn chúng lên các đường trực tiếp khác biệt (d_1) và (d_2). Trong nhị phương pháp chiều này, phương của (d_1) gần giống cùng với phương thơm của nguyên tố chính trước tiên của tài liệu, phương của (d_2) gần cùng với nhân tố phụ của tài liệu trường hợp sử dụng PCA. khi chiếu lên (d_1), các điểm red color cùng xanh bị ông chồng lấn lên nhau, làm cho Việc phân các loại tài liệu là ko khả thi trên tuyến đường trực tiếp này. Ngược lại, khi được chiếu lên (d_2), tài liệu của nhì class được chia thành những nhiều tương xứng tách biệt nhau, làm cho Việc classification trngơi nghỉ cần đơn giản hơn và kết quả rộng. Các con đường cong hình chuông biểu thị xê dịch phân bố Tỷ Lệ của tài liệu hình chiếu trong những class.

Trong Hình 1, ta trả sử rằng tài liệu được chiếu lên 1 đường thẳng và mỗi điểm được đại diện thay mặt bởi vì hình chiếu của nó xuất xứ trực tiếp tê. Như vậy, từ bỏ dữ liệu các chiều, ta đang bớt nó về 1 chiều. Câu hỏi đưa ra là, con đường thẳng cần có phương ra sao để hình chiếu của tài liệu trên phố thẳng này mang lại lợi ích mang lại câu hỏi classification nhất? Việc classification đơn giản độc nhất vô nhị rất có thể được đọc là việc tìm kiếm ra một ngưỡng góp phân tách nhị class một phương pháp đơn giản và dễ dàng và đạt hiệu quả tốt nhất.

Xét hai tuyến đường thằng (d_1) và (d_2). Trong số đó pmùi hương của (d_1) gần với phương của nguyên tố bao gồm nếu như làm cho PCA, phương của (d_2) gần với phương thơm của thành phần phú tìm kiếm được bởi PCA. Nếu ra có tác dụng sút chiều dữ liệu bởi PCA, ta đã nhận được dữ liệu sát với các điểm được chiếu lên (d_1). Lúc này bài toán phân tách bóc nhị class trsinh sống phải phức hợp vì chưng các điểm đại diện thay mặt mang lại nhị classes ck lấn lên nhau. trái lại, ví như ta chiếu dữ liệu khởi hành thẳng gần với nguyên tố phụ tìm kiếm được do PCA, tức (d_2), những điểm hình chiếu nằm hoàn toàn về nhị phía khác biệt của điểm màu sắc lục trên tuyến đường thẳng này. Với bài xích toán thù classification, bài toán chiếu tài liệu lên (d_2) bởi vì vậy đang đưa về hiệu quả hơn. Việc phân loại một điểm tài liệu mới sẽ tiến hành xác định lập cập bằng cách so sánh hình chiếu của chính nó lên (d_2) với điểm màu xanh lục này.

Qua ví dụ trên ta thấy, chưa phải câu hỏi lưu giữ thông tin các tốt nhất vẫn luôn đưa về kết quả tốt nhất. Chụ ý rằng hiệu quả của phân tích trên đây không tức là yếu tắc phú đem lại kết quả xuất sắc rộng yếu tắc chính, nó chỉ là một trong ngôi trường phù hợp quan trọng. Việc chiếu tài liệu lên đường trực tiếp nào yêu cầu nhiều phân tích cụ thể hơn nữa. Cũng xin nói thêm, hai tuyến đường thằng (d_1) cùng (d_2) trên đây không vuông góc cùng nhau, tôi chỉ chọn ra nhị hướng sát với những thành phần thiết yếu với prúc của dữ liệu nhằm minh hoạ. Nếu bạn cần tham khảo thêm về nhân tố chính/phụ, bạn sẽ thấy Bài 27 và Bài 28 về Principal Component Analysis (Phân tích thành phần chính) có ích.

Linear Discriminant Analysis (LDA) được Ra đời nhằm mục đích giải quyết và xử lý vấn đề này. LDA là 1 trong phương pháp bớt chiều dữ liệu mang đến bài bác toán thù classification. LDA rất có thể được xem như là một phương thức bớt chiều dữ liệu (dimensionality reduction), cùng cũng rất có thể được xem là một phương thức phân lớp (classification), cùng cũng rất có thể được áp dụng đôi khi cho cả nhì, tức sút chiều dữ liệu làm sao cho bài toán phân lớp tác dụng nhất. Số chiều của tài liệu bắt đầu là nhỏ tuổi hơn hoặc bởi (C-1) trong những số ấy (C) là con số classes. Từ ‘Discriminant’ được đọc là phần nhiều lên tiếng đặc trưng cho từng class, khiến nó không trở nên lẫn với các classes khác. Từ ‘Linear’ được dùng vị phương pháp sút chiều tài liệu được thực hiện vì một ma trận chiếu (projection matrix), là 1 trong những phxay thay đổi tuyến đường tính (linear transform).

Trong Mục 2 sau đây, tôi đang trình bày về trường đúng theo binary classification, tức gồm 2 classes. Mục 3 vẫn bao quát lên đến ngôi trường phù hợp với các classes hơn 2. Mục 4 sẽ có được những ví dụ cùng code Pydong dỏng mang đến LDA.

2. Linear Discriminant Analysis cho bài xích toán thù với 2 classes

2.1. Ý tưởng cơ bản

Mọi phương pháp classification phần đa được ban đầu cùng với bài xích toán thù binary classification, với LDA cũng chưa hẳn nước ngoài lệ.

Quay lại cùng với Hinch 1, các mặt đường hình chuông mô tả thiết bị thị của những hàm mật độ phần trăm (probability density function - pdf) của dữ liệu được chiếu xuống theo từng class. Phân păn năn chuẩn chỉnh tại đây được thực hiện nhỏng là một trong thay mặt, dữ liệu ko độc nhất thiết luôn luôn đề nghị tuân theo phân păn năn chuẩn.

Độ rộng lớn của từng mặt đường hình chuông miêu tả độ lệch chuẩn của tài liệu. Dữ liệu càng triệu tập thì độ lệch chuẩn càng bé dại, càng phân tán thì độ lệch chuẩn càng cao. lúc được chiếu lên (d_1), tài liệu của hai classes bị phân tán vô số, làm cho bọn chúng bị xáo trộn vào với nhau. Khi được chiếu lên (d_2), mỗi classes đều sở hữu độ lệch chuẩn chỉnh bé dại, làm cho dữ liệu trong từng class tập trung rộng, dẫn mang đến hiệu quả xuất sắc hơn.

Tuy nhiên, câu hỏi độ lệch chuẩn bé dại trong những class không đầy đủ nhằm đảm bảo an toàn độ Discriminant của dữ liệu. Xét những ví dụ vào Hình 2.


*

Hình 2: Khoảng phương pháp thân những hy vọng với tổng các phương sai ảnh hưởng tới độ discriminant của dữ liệu. a) Khoảng cách giữa nhị mong muốn là phệ mà lại phương sai trong mỗi class cũng bự, làm cho hai phân păn năn ck lấn lên nhau (phần color xám). b) Phương không nên cho từng class là cực kỳ nhỏ mà lại nhị hy vọng quá gần nhau, khiến cạnh tranh tách biệt 2 class. c) lúc phương thơm không đúng đầy đủ nhỏ và khoảng cách thân nhị mong rằng đầy đủ mập, ta thấy rằng tài liệu discriminant rộng.

Hình 2a) giống như cùng với dữ liệu Khi chiếu lên (d_1) làm việc Hình 1. Cả nhị class hồ hết thừa phân tán để cho tỉ trọng ông xã lấn (phần diện tích màu xám) là mập, tức dữ liệu chưa thực sự discriminative.

Hình 2b) là trường đúng theo Khi độ lệch chuẩn của nhị class rất nhiều bé dại, tức tài liệu triệu tập rộng. Tuy nhiên, sự việc với trường phù hợp này là khoảng cách giữa hai class, được đo bằng khoảng cách giữa hai mong muốn (m_1) cùng (m_2), là thừa bé dại, để cho phần ông chồng lấn cũng chiếm môt tỉ trọng béo, cùng tất yếu, cũng ko giỏi mang đến classification.

Hình 2c) là trường thích hợp khi nhị độ lệch chuẩn là nhỏ dại cùng khoảng cách thân hai kỳ vọng là to, phần chống lấn bé dại không đáng chú ý.

Xem thêm: Đáp Án Trắc Nghiệm Bns

cũng có thể bạn đang tự hỏi, độ lệch chuẩn với khoảng cách giữa nhị mong rằng thay mặt cho các tiêu chuẩn gì:

Nhỏng đã nói, độ lệch chuẩn chỉnh nhỏ dại bộc lộ việc dữ liệu không nhiều phân tán. Điều này Tức là tài liệu trong những class gồm Xu thế kiểu như nhau. Hai phương thơm không nên (s_1^2, s_2^2) có cách gọi khác là những within-class variances.

Khoảng bí quyết giữa các mong rằng là to minh chứng rằng hai classes ở xa nhau chừng, tức dữ liệu thân những classes là không giống nhau các. Bình pmùi hương khoảng cách thân nhì mong rằng ((m_1 - m_2)^2) nói một cách khác là between-class variance.

Hai classes được điện thoại tư vấn là discriminative trường hợp hai class đó bí quyết cách nhau (between-class variance lớn) với dữ liệu trong những class có Xu thế giống nhau (within-class variance nhỏ). Linear Discriminant Analysis là thuật toán thù đi kiếm một phép chiếu thế nào cho tỉ trọng giữa between-class variance cùng within-class variance lớn số 1 rất có thể.

2.2. Xây dựng hàm mục tiêu

Giả sử rằng tất cả (N) điểm dữ liệu (mathbfx_1, mathbfx_2, dots, mathbfx_N) trong các số ấy (N_1 &=&mathbfw^T underbracesum_k=1^2 sum_n in mathcalC_k (mathbfx_n - mathbfm_k)(mathbfx_n - mathbfm_k)^T_mathbfS_W mathbfw = mathbfw^TmathbfS_W mathbfw~~~~~(6)endeqnarray>(mathbfS_W) nói một cách khác là within-class covariance matrix. Đây cũng là 1 ma trận đối xứng nửa xác định dương vày nó là tổng của nhị ma trận đối xứng nửa xác minh dương.

Trong ((5)) và ((6)), ta vẫn sử dụng đẳng thức:<(mathbfa^Tmathbfb)^2 = (mathbfa^Tmathbfb)(mathbfa^Tmathbfb) = mathbfa^Tmathbfbmathbfb^Tmathbfa>cùng với (mathbfa, mathbfb) là nhì vectors thuộc chiều bất kỳ.

vì thế, bài xích tân oán về tối ưu đến LDA trở thành:

2.3. Nghiệm của bài xích toán thù buổi tối ưu

Nghiệm (mathbfw) của ((7)) đang là nghiệm của pmùi hương trình đạo hàm hàm mục tiêu bằng 0. Sử dụng chain rule mang lại đạo hàm hàm những trở thành cùng cách làm ( abla_mathbfwmathbfw mathbfAmathbfw = 2mathbfAw) nếu như (mathbfA) là 1 ma trận đối xứng, ta có:

<egineqnarray abla_mathbfw J(mathbfw) &=và frac1(mathbfw^TmathbfS_Wmathbfw)^2 left(2mathbfS_B mathbfw (mathbfw^TmathbfS_Wmathbfw) - 2mathbfw^TmathbfS_Bmathbfw^TmathbfS_W mathbfw ight) = mathbf0và (8)\Leftrightarrow mathbfS_Bmathbfw &=và fracmathbfw^TmathbfS_B mathbfwmathbfw^TmathbfS_WmathbfwmathbfS_Wmathbfw& (9) \mathbfS_W^-1mathbfS_B mathbfw &=& J(mathbfw)mathbfw và (10)endeqnarray>

Lưu ý: Trong ((10)), ta đang đưa sử rằng ma trận (mathbfS_W) là khả nghịch. Điều này sẽ không luôn luôn luôn luôn đúng, mà lại gồm một trick bé dại là ta hoàn toàn có thể xấp xỉ (mathbfS_W) vì chưng ( armathbfS_W approx mathbfS_W + lambdamathbfI) cùng với (lambda) là một số thực dương bé dại. Ma trận new này là khả nghịch vày trị riêng rẽ nhỏ độc nhất của nó bằng với trị riêng biệt nhỏ duy nhất của (mathbfS_W) cùng với (lambda) tức không nhỏ dại rộng (lambdomain authority > 0). Như vậy được suy ra từ các việc (mathbfS_W) là 1 trong ma trận nửa xác định dương. Từ đó suy ra (armathbfS_W) là một trong ma trận xác minh dương do hồ hết trị riêng của chính nó là thực dương, và vì thế, nó khả nghịch. khi tính tân oán, ta hoàn toàn có thể sử dụng nghịch đảo của (armathbfS_W).

Kỹ thuật này được sử dụng khôn cùng đôi lúc ta đề xuất sử dụng nghịch hòn đảo của một ma trận nửa khẳng định dương cùng chưa chắc chắn nó bao gồm thực sự là xác định dương hay không.

Quay quay trở lại với ((10)), bởi vì (J(mathbfw)) là một vài vô phía, ta suy ra (mathbfw) cần là một trong vector riêng biệt của (mathbfS_W^-1mathbfS_B) ứng với cùng một trị riêng rẽ nào đó. Hơn nữa, giá trị của trị riêng biệt này bằng với (J(mathbfw)). Vậy, nhằm hàm phương châm là lớn số 1 thì (J(mathbfw)) chính là trị riêng rẽ lớn số 1 của (mathbfS_W^-1mathbfS_B). Dấu bởi xảy ra Khi (mathbfw) là vector riêng biệt ứng cùng với trị riêng lớn nhất kia. Quý khách hàng phát âm rất có thể hiểu phần này hơn khi xem cách thiết kế trên Pynhỏ nhắn sinh hoạt Mục 4.

Từ hoàn toàn có thể thấy ngay lập tức rằng giả dụ (mathbfw) là nghiệm của ((7)) thì (kmathbfw) cũng là nghiệm cùng với (k) là số thực khác không ngẫu nhiên. Vậy ta hoàn toàn có thể lựa chọn (mathbfw) làm thế nào cho ((mathbfm_1 - mathbfm_2)^Tmathbfw = J(mathbfw) = L =) trị riêng biệt lớn số 1 của (mathbfS_W^-1mathbfS_B) . Lúc đó, nuốm định nghĩa của (mathbfS_B) sinh sống ((5)) vào ((10)) ta có:

Điều này Tức là ta hoàn toàn có thể chọn:cùng với (altrộn eq 0) ngẫu nhiên.

Biểu thức ((11)) còn được cho là như là Fisher’s linear discriminant, được đặt theo tên bên khoa học Ronald Fisher.

3. Linear Discriminant Analysis đến multi-class classification problems

3.1. Xây dựng hàm mất mát

Trong mục này, chúng ta vẫn chăm chú trường hòa hợp tổng quát khi có không ít rộng 2 classes. Giả sử rằng chiều của dữ liệu (D) lớn hơn số lượng classes (C).

Giả sử rằng chiều mà lại bọn họ ao ước giảm về là (D’

(mathbfX_k, mathbfY_k = mathbfW^TmathbfX_k) lần lượt là ma trận dữ liệu của class (k) vào không khí ban sơ và không gian new cùng với số chiều bé dại hơn.

(mathbfm_k = frac1N_ksum_n in mathcalC_kmathbfx_k in mathbbR^D) là vector kỳ vọng của class (k) trong không khí thuở đầu.

(mathbfe_k = frac1N_ksum_n in mathcalC_k mathbfy_n = mathbfW^Tmathbfm_k in mathbbR^D’) là vector hy vọng của class (k) trong không gian mới.

(mathbfm) là vector hy vọng của toàn cục dữ liệu vào không gian ban sơ cùng (mathbfe) là vector kỳ vọng trong không gian bắt đầu.

Xem thêm: Windows Disc Image Burner Là Gì, Download Easy Disc Burner 6

trong những biện pháp thiết kế hàm mục tiêu cho multi-class LDA được minh họa trong Hình 3.


Chuyên mục: KHÁI NIỆM