>Làm sạch dữ liệu trong MS Excel

Làm sạch dữ liệu trong MS Excel

01/12/2023

Định nghĩa

“Làm sạch dữ liệu” là quá trình loại bỏ hoặc sửa chữa dữ liệu trong tập dữ liệu của bạn để nó đáng tin cậy và chính xác. Trong MS Excel, việc làm sạch dữ liệu có thể bao gồm việc loại bỏ các ký tự không mong muốn, chuẩn hóa văn bản, loại bỏ các dòng trống, và nhiều hơn nữa.

Tại sao cần làm sạch dữ liệu

Dữ liệu không sạch có thể gây ra nhiều vấn đề, bao gồm:
•    Sai lệch trong phân tích: Dữ liệu không chính xác có thể dẫn đến kết quả phân tích sai lệch.
•    Mất thời gian: Việc làm việc với dữ liệu không sạch có thể mất nhiều thời gian hơn so với dữ liệu đã được làm sạch.
•    Khó khăn trong việc hiểu dữ liệu: Dữ liệu không sạch có thể gây khó khăn trong việc hiểu và diễn giải dữ liệu.

Các cách làm sạch dữ liệu trong MS Excel

Loại bỏ dòng trống

Để loại bỏ dòng trống trong Excel, bạn có thể sử dụng chức năng “Sort & Filter”.
Bước 1: chọn dữ liệu của bạn.


 

Bước 2: nhấn vào “Sort & Filter” trong thanh công cụ, sau đó chọn “Sort A to Z”.

Bước 3: tất cả các dòng trống sẽ được di chuyển đến cuối bảng dữ liệu của bạn.


 

Loại bỏ ký tự không mong muốn

Trong Excel, bạn có thể sử dụng hàm CLEAN và TRIM để loại bỏ các ký tự không mong muốn.

Ví dụ: nhìn vào hình trong hình, ở cột D2 và D4, có thể thấy có những khoản cách trống, cần xử lý loại bỏ những ký tự khoản cách này để làm sạch dữ liệu.

Bước 1: trong một ô trống E2, gõ công thức =TRIM(CLEAN(D2)) vào ô E2, trong đó D2 là ô chứa chuỗi cần làm sạch.

Bước 2: Nhấn Enter. Kết quả sẽ trả về dữ liệu sau khi đã loại bỏ các ký tự trống

Chuẩn hóa văn bản

Bạn có thể sử dụng các hàm LOWER, UPPER và PROPER để chuẩn hóa văn bản trong Excel.
•    Hàm LOWER: là hàm giúp chuyển chữ in hoa thành chữ thường
•    Hàm UPPER: dùng để chuyển chữ cái thường thành chữ in hoa
•    Hàm PROPER: là hàm giúp viết hoa chữ thứ nhất trong một chuỗi văn bản nếu trước nó là một khoảng trắng và chuyển đổi tất cả các chữ khác thành chữ thường

Ví dụ: Trong hình bạn có cột B là cột “Loai HD”, với nhiều kiểu gõ chữ khác nhau
Bước 1: để chuẩn hóa văn bản thành một dạng duy nhất, bạn có thể sử dụng hàm LOWER, UPPER và PROPER, ở đây sẽ có ví dụ luôn cho cả 3 hàm trên tương ứng với cột C, D và E.

Bước 2: ở ô C2 gõ công thức: =LOWER(B2), ô D2 với công thức: =UPPER(B2) và ô E2 với công thức: =PROPER(B2). Sau đó bấm Enter. Kết quả sẽ trả về 3 cột dữ liệu với kiểu gõ khác nhau. Như vậy chúng ta đã hoàn thành chuẩn hóa cho một cột dữ liệu về cùng kiểu gõ chữ.

Các công cụ làm sạch sữ liệu trong MS Excel

Find & Replace (Tìm và Thay thế)

Chức năng “Find & Replace” trong Excel giúp bạn tìm kiếm và thay thế dữ liệu một cách nhanh chóng.

Ví dụ: Giả sử bạn muốn thay thế tất cả các ký tự “-” trong dữ liệu của bạn thành “/” ở cột K “TDCM”.


 

Bước 1: Chọn dữ liệu của bạn.

Bước 2: Nhấn Ctrl + H để mở hộp thoại “Find & Replace”. Gõ “-” vào ô “Find what” và “/” vào ô “Replace with” và nhấn “Replace All”.


 

Bước 3: Tất cả các ký tự “-” trong dữ liệu của bạn sẽ được thay thế bằng “/”.


 

Remove Duplicates (Loại bỏ trùng lặp)

Excel cung cấp chức năng “Remove Duplicates” để loại bỏ các dòng trùng lặp trong dữ liệu của bạn.

Ví dụ: trong hình có thể thấy có các dòng dữ liệu bị trùng lặp, vậy khi cần lấy ra danh sách dữ liệu với nhân viên là duy nhất thì chúng ta sẽ sử dụng chức năng “Remove Duplicates” để loại bỏ những dữ liệu dư thừa.

Bước 1: Trên thanh công cụ, nhấn “Data” -> “Remove Duplicates”.


 

Bước 2: Trong hộp thoại “Remove Duplicates”, chọn các cột bạn muốn loại bỏ trùng lặp, sau đó nhấn “OK”. Excel sẽ loại bỏ tất cả các dòng trùng lặp trong các cột đã chọn. Ở đây chúng ta cần loại bỏ trùng lặp ở cột A (“MSNV”).


 

Bước 3: kết quả trả về bảng dữ liệu đã loại bỏ các dòng có MSNV bị trùng lặp.

Text to Colunms (Chuyển đổi văn bản thành cột)

Công cụ “Text to Columns” trong Excel giúp bạn tách dữ liệu từ một cột thành nhiều cột dựa trên một dấu phân cách nhất định.

Ví dụ: Giả sử bạn có một cột K chứa dữ liệu dạng “Đại học-Quản trị nhân lực” và bạn muốn tách nó thành hai cột riêng biệt là “Đại học” và “Quản trị nhân lực”
Bước 1: Chọn cột chứa dữ liệu cần tách.

Bước 2: Trên thanh công cụ, nhấn “Data” -> “Text to Columns”.


 

Bước 3: Trong hộp thoại “Convert Text to Columns Wizard”, chọn “Delimited” và nhấn “Next”.

Bước 4: Chọn dấu phân cách phù hợp (trong trường hợp này là “-”) và nhấn “Next”.

Bước 5: Chọn vị trí để đặt dữ liệu đã tách và nhấn “Finish”. Dữ liệu của bạn sẽ được tách thành hai cột riêng biệt.

Bước 6: kết quả trả về 2 cột đã được phân tách thành 2 dữ liệu riêng biệt.

Hy vọng với bài viết về "Làm sạch dữ liệu trong MS Excel" sẽ giúp các bạn có thêm kiến thức cũng như là kỹ năng để xử lý các dạng dữ liệu trong MS Excel để tiện cho việc thao tác sau khi làm sạch dữ liệu.

Copyright © 2024 by 365learning