Kaggle là gì

Kaggle là một trong những cộng đồng tuyệt vời nhất của rất nhiều nhà công nghệ dữ liệu. Cá nhân tôi cũng có một thời hạn tận hưởng và tđắm say gia những cuộc thi trên này. Tôi học được từ bỏ những người dân đùa ở kaggle về những kỹ năng với biện pháp xử lý nhiều hơn nữa tất cả mọi gì tôi học tập được trước kia. Tuy nhiên, sau một thời gian, tôi quyết định dành chút thời gian trên kaggle hơn nỗ lực vày tmê say gia sâu vào những cuộc thi như lúc trước.

Bạn đang xem: Kaggle là gì

Đang xem: Kaggle là gì

Có một vài lý do nhằm tôi giới thiệu ra quyết định này.

Tiêu chí đối chọi giản

Các chúng ta hẳn sẽ quen thuộc cùng với hàm phương châm trong machine learning. Các cuộc thi trên kaggle cũng chỉ bao gồm một phương châm tốt nhất đó là tối thiểu hóa cực hiếm của loss function.

*

*

Việc về tối tphát âm hàm mục tiêu là đúng, dẫu vậy chưa đủ. Trong thực tiễn bên cạnh quan tâm tới kỹ năng dự đân oán của quy mô, họ còn cần quyên tâm tới khả năng tiến hành mô hình kia, kĩ năng cân xứng cùng với hệ thống hiện nay, thời gian tính toán thù, khả năng giải thích… Những tiêu chuẩn này hoàn toàn không được chuyển vào tiêu chuẩn của các cuộc thi bên trên kaggle.

Hãy đem ví dụ về thuật toán gợi nhắc giành thành công trong cuộc thi cơ mà Netflix tổ chức triển khai.

A year into the competition, the Korbell team won the first Progress Prize with an 8.43% improvement. They reported more than 2000 hours of work in order lớn come up with the final combination of 107 algorithms that gave them this prize.

Well, đây là một thuật tân oán xuất sắc, tuy thế hãy tưởng tượng các bạn sẽ vận dụng thuật toán thù này thế nào cho số lượng rating, user ngày dần tăng? Nó vượt phức hợp để mang vào áp dụng.

Cố gắng vào engineering

Điều này còn có một trong những phần nguyên do bởi sự đơn giản và dễ dàng của tiêu chuẩn bên trên. Các công thức thắng lợi cuộc thi bên trên kaggle từ từ trnghỉ ngơi đề nghị khá tiêu cực: đa phần feature, các model, ensemble chúng lại. Nếu điều đó không giúp cho bạn tăng thứ hạng? Sử dụng năng lượng tính toán thù để thực hiện các feature rộng, nhiều Model rộng. Điều này không khác gì chúng ta nỗ lực thành lập một blackbox khổng lồ với cầu ước ao bọn chúng đến kết quả xuất sắc.

Hãy đem ví dụ về cuộc thi home credit.

Xem thêm: Close-Knit Là Gì - Nghĩa Của Từ Close

*

*

Với cá thể tôi, một tín đồ từng làm vào nghành nghề dịch vụ ngân hàng — tài thiết yếu, tôi kì vọng có khá nhiều kernel mang lại insight độc đáo về hành vi vay mượn với đầu tư của chúng ta gắng vì chưng pipeline cùng với hàng loạt feature với mô hình như trên.

Với riêng rẽ cuộc thi của home credit, cá nhân tôi thấy rằng roc-auc = 0.81 là tốt nhất và ko có công dụng cao không dừng lại ở đó. Các phương thức như tăng thêm feature, thêm tế bào hình… để kì vọng tạo thêm 0.1 điểm nữa chỉ là cầu may mắn.

Lý do là gì? Tôi đã debug quy mô với đối chiếu tài liệu, đến một ngưỡng bạn sẽ cần thiết biệt lập được về phương diện tài liệu sự khác nhau của một khoản vay mặc định với non-default. Với những features hiện giờ, quy mô cũng không quá chắc chắn là về dự đoán vào câu hỏi phân nhiều loại. Vì vậy, những cố gắng quan trọng phải triệu tập vào Việc thu thập thêm những features mạnh bạo nắm vị tăng mức độ tinh vi của quy mô. Nhà kỹ thuật dữ liệu, lúc ấy, đề xuất phụ thuộc sự quan trọng đặc biệt của đổi thay số so với quality phân một số loại của quy mô nhằm nhắc nhở về hầu như công bố buộc phải tích lũy thêm.

Thuật toán trên kaggle không mới

Thực ra hầu hết thuật toán bắt đầu sẽ Thành lập làm việc hầu hết bài xích báo khoa học. Kaggle chỉ nên nơi áp dụng và kiểm bệnh xem các thuật tân oán này có hữu ích ko trong thực tiễn.

Vì vậy, bây giờ tôi chuộng với một trong những giải pháp tiếp cận tác dụng cơ mà bản thân biết đối với từng bài bác toán thù và chỉ coi kaggle là địa điểm tìm hiểu thêm các kỹ năng thực hành thực tế bổ sung cập nhật. Một số bài toán thù và thuật tân oán nhưng tôi cho rằng buộc phải sử dụng:

Đối với bài xích tân oán phân các loại cùng với đầu vào là tabular data: tree bagging và tree boosting. Nếu bạn muốn mô hình rất có thể diễn giải, hãy lựa chọn tree bagging. Nếu hy vọng quality dự đoán, tree boosting là lựa chọn phù hợp.Bài tân oán hồi quy với đầu vào là tabular data: fully connected net hoặc tree boosting sẽ làm tốt nhất có thể.Bài toán thù dự đoạn chuỗi thời gian: RNN rất có thể cách xử trí được vấn đề.Đối với bài tân oán phân các loại vnạp năng lượng phiên bản, hình ảnh: transfer learning đã đem về hiệu quả cực tốt.

Thắng một cuộc thi bên trên kaggle không hỗ trợ ích những mang đến công việc của tôi

*

Source: From the paper “Hidden Technical Debt in Machine Learning System” by D. Sculley et al

Nlỗi các bạn thấy ngơi nghỉ hình bên trên, hành trình của tài liệu trường đoản cú khi sinh ra cho tới lúc dành được một insight hữu ích phải tương đối nhiều công đoạn với sức lực. Khi đã chiếm lĩnh được một cỗ dữ liệu sạch đẹp thì Việc training quy mô để có được dự đoán đủ xuất sắc ban đầu (theo cá nhân tôi) là không thực sự cực nhọc. Việc win một cuộc thi trên kaggle chỉ minh chứng rằng tôi giải quyết được một phần khôn cùng nhỏ trong các bước bên trên. Vì vậy nó không giúp ích rất nhiều mang lại các bước của tớ.

Hãy dành riêng thời hạn đến các lắp thêm quan trọng đặc biệt khác

Người làm cho về tài liệu kế bên gọi biết về qui định, ngữ điệu xây dựng hay thuật toán thù machine learning còn đề nghị xuất sắc rất nhiều khả năng mượt khác ví như gọi biết về ngành, khả năng giao tiếp, khả năng thuyết trình, tài năng đặt thắc mắc, tài năng đối chiếu vấn đề…

Vì vậy, hãy chắc chắn rằng rằng bạn dành riêng thời hạn nhằm nâng cấp tất cả các khả năng quan trọng cố vị vượt tập trung vào luật, ngữ điệu tuyệt thuật tân oán.

Sau tất cả

Kaggle vẫn khôn cùng tuyệt!

Những gì tôi học tập được về data science trường đoản cú kaggle là rất nhiều. Tuy nhiên những cuộc thi bên trên kaggle chỉ phản chiếu một phần khôn cùng nhỏ những gì vào thực tế quá trình của rất nhiều bạn làm cho về dữ liệu. Vì vậy, hãy dành riêng thời gian cùng sự quyên tâm hợp lý và phải chăng trên kaggle để có thời gian hoàn thành xuất sắc toàn bộ kỹ năng của bản thân mình.