Công nghệ thông tin

10 kỹ năng khoa học dữ liệu thực tế nhất bạn nên có vào năm 2022

Có rất nhiều khóa học, bài viết về kỹ năng cần thiết về Khoa học Dữ liệu, nêu bật các kỹ năng cơ bản như Thống kê, Toán học và Lập trình. Tuy nhiên những kỹ năng cơ bản này thiên về kiến thức lý thuyết và có thể khó chuyển thành kỹ năng thực tế trong công việc. Bài viết này đưa ra một danh sách các kỹ năng thực tế giúp bạn có thể thu hút các nhà tuyển dụng.

Bốn kỹ năng đầu tiên trong bài viết này hoàn toàn quan trọng đối với bất kỳ nhà khoa học dữ liệu nào, bất kể bạn chuyên về lĩnh vực gì. Các kỹ năng sau (5–10) đều là những kỹ năng quan trọng nhưng sẽ khác nhau về cách sử dụng tùy thuộc vào lĩnh vực bạn chuyên sâu.

Ví dụ: nếu bạn quan tâm đến thống kê, bạn có thể dành nhiều thời gian hơn cho các thống kê theo cấp số nhân. Ngược lại, nếu bạn quan tâm hơn đến phân tích văn bản, bạn có thể dành nhiều thời gian hơn để học NLP hoặc nếu bạn quan tâm đến khoa học quyết định (Decision science), bạn có thể tập trung vào mô hình giải thích (explanatory modeling).

Hãy cùng đi sâu vào 10 kỹ năng khoa học dữ liệu thiết thực nhất:

Nội dung

1. Viết truy vấn SQL & xây dựng đường ống dữ liệu2. Data Wrangling / Feature Engineering3. Quản lý phiên bản4. Kỹ năng kể chuyện (storytelling)5. Hồi quy và Phân loại6. Mô hình giải thích7. Thử nghiệm A / B8. Clustering (phân cụm)9. Khuyến nghị10. NLPKết luận
1. Viết truy vấn SQL & xây dựng đường ống dữ liệu
Học cách viết các truy vấn SQL và lập lịch cho chúng trên nền tảng quản lý quy trình làm việc (workflow management platform) như Airflow sẽ khiến bạn cực kỳ thu hút các nhà tuyển dụng với tư cách là một nhà khoa học dữ liệu, vì vậy đó là lý do tại sao nó là kỹ năng nằm ở vị trí số 1. Tại sao? Có nhiều lý do:

Tính linh hoạt: các công ty thích các nhà khoa học dữ liệu có thể làm nhiều việc (full-stack) hơn là chỉ lập mô hình dữ liệu. Nếu bạn có thể tham gia và giúp xây dựng các đường dẫn dữ liệu (data pipelines)  cốt lõi, bạn sẽ có thể cải thiện thông tin chi tiết được thu thập, xây dựng các báo cáo tốt hơn và cuối cùng là làm cho cuộc sống của mọi người dễ dàng hơn.
Tính độc lập: sẽ có những trường hợp bạn cần một bảng (table) hoặc một bảng ảo (view) cho một mô hình hoặc một dự án khoa học dữ liệu mà các bảng hay view đó không tồn tại. Bạn có thể viết các đường ống cho của riêng bạn các dự án thay vì dựa vào các nhà phân tích dữ liệu hoặc các kỹ sư dữ liệu sẽ giúp bạn tiết kiệm thời gian và làm cho bạn có giá trị hơn.

Do đó, là một nhà khoa học dữ liệu, bạn PHẢI là một chuyên gia về SQL. Không có ngoại lệ.

2. Data Wrangling / Feature Engineering
Cho dù bạn đang xây dựng mô hình, khám phá các tính năng mới để xây dựng hay thực hiện quá trình tìm hiểu sâu, bạn sẽ cần biết cách tổng hợp dữ liệu. Data Wrangling (sắp xếp dữ liệu) có nghĩa là chuyển đổi dữ liệu của bạn từ định dạng này sang định dạng khác. Feature Engineering (chuyển đổi dữ liệu) là một dạng sắp xếp dữ liệu nhưng đặc biệt đề cập đến việc trích xuất các thuộc tính (featues) từ dữ liệu thô.

Việc bạn thao tác dữ liệu của mình như thế nào không quan trọng, cho dù bạn sử dụng Python hay SQL, nhưng bạn sẽ có thể thao tác dữ liệu của mình theo cách bạn muốn (tất nhiên là trong các tham số có thể có).

3. Quản lý phiên bản
Quản lý phiên bản (version control) trong bài viết này là để cập đến GitHub và Git. Git là hệ thống quản lý phiên bản rất thông dụng và GitHub về cơ bản là một kho lưu trữ dựa trên đám mây cho các tập tin và thư mục.

Mặc dù Git không phải là kỹ năng cần phải học ngay từ lúc đầu nhưng là một kỹ năng mà tất cả những ai làm việc liên quan đến lập trình đều phải biết.  Đây là lý do tại sao:

Nó cho phép bạn cộng tác và cùng làm việc trên các dự án với những người khác
Nó theo dõi tất cả các phiên bản code của bạn (trong trường hợp bạn cần quay trở lại về các phiên bản cũ hơn)

Hãy dành thời gian để học Git. Nó sẽ giúp bạn tiến xa

4. Kỹ năng kể chuyện (storytelling)
Bạn có thể xây dựng được một dashboard tuyệt đẹp hoặc một mô hình phức tạp với độ chính xác hơn 95%. Nhưng nếu bạn không thể truyền đạt giá trị của các dự án của mình cho người khác, bạn sẽ không nhận được sự công nhận xứng đáng. Kết quả là, bạn sẽ không thành công trong sự nghiệp như mong muốn.

Kể chuyện (storystelling) đề cập đến cách bạn truyền đạt thông tin chi tiết và mô hình của mình. Về mặt khái niệm, nếu bạn nghĩ về một cuốn sách ảnh, thì thông tin chi tiết / mô hình là những bức tranh và “kể chuyện” đề cập đến câu chuyện kết nối tất cả các bức tranh đó.

Kể chuyện và giao tiếp là những kỹ năng bị đánh giá thấp trong thế giới công nghệ. Trong thực tế, thiếu kỹ năng này tạo ra hố sau ngăn cách giữa những người đi sau và những người kinh nghiệm, giữa nhân viên và người quản lý.

5. Hồi quy và Phân loại
Xây dựng mô hình hồi quy (regression) và phân loại (classification), tức là mô hình dự đoán, không phải là thứ mà bạn sẽ luôn làm trong công việc hàng ngày. Tuy nhiên, những kỹ năng đó là những kỹ năng mà nhà tuyển dụng luôn tìm kiếm ở bạn với vai trò là một nhà khoa học dữ liệu.

Cho dù đó không phải là điều bạn sẽ làm thường xuyên, nhưng bạn cần phải giỏi về nó nếu muốn có thể tạo ra các mô hình hoạt động hiệu quả.  Do đó, bạn nên hiểu rõ về các kỹ thuật chuẩn bị dữ liệu, các thuật toán tăng cường (boosting algorithms), điều chỉnh siêu tham số (hyperparameter tuning) và các chỉ số đánh giá mô hình (model evaluation metrics).

6. Mô hình giải thích
Có hai loại mô hình mà bạn có thể xây dựng. Một là mô hình dự đoán (predictive model) , đoán kết quả dựa trên một số biến đầu vào. Một mô hình khác là mô hình giải thích (explanatory model), không được sử dụng để đưa ra dự đoán nhưng được sử dụng để hiểu rõ hơn các mối quan hệ giữa các biến đầu vào và biến đầu ra.

Các mô hình giải thích thường được tạo ra bằng cách sử dụng các mô hình hồi quy. Lý do là chúng cung cấp rất nhiều thống kê hữu ích trong việc hiểu mối quan hệ giữa các biến. Các mô hình giải thích rất hữu ích, và rất cần thiết nếu bạn muốn tham gia vào lĩnh vực khoa học quyết định.

7. Thử nghiệm A / B
Thử nghiệm A / B (A/B Testing) là một hình thức thử nghiệm (rxperimentation) trong đó bạn so sánh hai nhóm khác nhau để xem nhóm nào hoạt động tốt hơn dựa trên một số liệu nhất định.

Thử nghiệm A / B được cho là khái niệm thống kê thực tế nhất và được sử dụng rộng rãi trong các doanh nghiệp. Tại sao lại như vậy? Thử nghiệm A / B cho phép bạn kết hợp 100 hoặc 1000 cải tiến nhỏ, dẫn đến những thay đổi và cải tiến đáng kể theo thời gian.

Nếu bạn quan tâm đến khía cạnh thống kê của khoa học dữ liệu, thử nghiệm A / B là điều cần thiết để hiểu và học hỏi.

8. Clustering (phân cụm)
Clustering (phân cụm) là lĩnh vực cốt lõi của khoa học dữ liệu mà mọi người nên quen thuộc.

Clustering hữu ích vì một số lý do. Bạn có thể tìm thấy các phân khúc khách hàng khác nhau, bạn có thể sử dụng phân cụm để gắn nhãn dữ liệu chưa được gắn nhãn và thậm chí bạn có thể sử dụng clustering để tìm điểm giới hạn cho các mô hình.

9. Khuyến nghị
Recommendation (khuyến nghị) là một trong những ứng dụng thực tế nhất trong khoa học dữ liệu.

Hệ thống đề xuất rất mạnh mẽ vì chúng có khả năng thúc đẩy doanh thu và lợi nhuận. Trên thực tế, Amazon tuyên bố đã tăng doanh số bán hàng của họ lên 29% do các hệ thống khuyến nghị của họ vào năm 2019.

Vì vậy, nếu bạn làm việc cho một công ty mà người dùng của họ phải chọn trong rất nhiều lựa chọn thì hệ thống đề xuất có thể là một ứng dụng hữu ích để khám phá.

10. NLP
NLP (Natural Language Processing), tức Xử lý ngôn ngữ tự nhiên, là một nhánh của trí tuệ nhân tạo tập trung vào văn bản và lời nói. Không giống như học máy, NLP vẫn còn một chặng đường phát triển phía trước, và đó là điều khiến nó trở nên thú vị.

NLP có rất nhiều ứng dụng:

NLP có thể được sử dụng để phân tích tâm lý (sentiment analysis) để xem mọi người cảm thấy thế nào về một doanh nghiệp hoặc (các) sản phẩm của doanh nghiệp.
NLP có thể được sử dụng để theo dõi phương tiện truyền thông xã hội của một công ty bằng cách phân tách các nhận xét tích cực và tiêu cực.
NLP là cốt lõi đằng sau việc xây dựng chatbot và trợ lý ảo
NLP cũng được sử dụng để trích xuất văn bản (sàng lọc qua các tài liệu)

Nhìn chung, NLP là một ngách thực sự thú vị và hữu ích trong thế giới khoa học dữ liệu.

Kết luận
Hy vọng rằng bài viết này sẽ giúp định hướng việc học và phát triển các kỹ năng của bạn một cách đúng hướng cho thời gian sắp tới. Có rất nhiều điều để học và vì vậy hãy chọn những kỹ năng nào bạn cho rằng thú vị và phú hợp nhất để bắt đầu.

Xem bài viết gốc của tác giả Terence Shin tại đây

 

Bạn có biết?

tham gia cộng đồng ITguru trên Linkedin, Facebook và các kênh mạng xã hội khác có thể giúp bạn nhanh chóng tìm được những chủ đề phát triển nghề nghiệp và cập nhật thông tin về việc làm IT mới nhất

Linkedin Page: https://bit.ly/LinkedinITguru
Facebook Group: https://bit.ly/ITguruvn
cơ hội việc làm IT : ITguru.vn

Back to top button