Làm sạch dữ liệu trong MS Excel
01/12/2023
“Làm sạch dữ liệu” là quá trình loại bỏ hoặc sửa chữa dữ liệu trong tập dữ liệu của bạn để nó đáng tin cậy và chính xác. Trong MS Excel, việc làm sạch dữ liệu có thể bao gồm việc loại bỏ các ký tự không mong muốn, chuẩn hóa văn bản, loại bỏ các dòng trống, và nhiều hơn nữa.
Dữ liệu không sạch có thể gây ra nhiều vấn đề, bao gồm:
• Sai lệch trong phân tích: Dữ liệu không chính xác có thể dẫn đến kết quả phân tích sai lệch.
• Mất thời gian: Việc làm việc với dữ liệu không sạch có thể mất nhiều thời gian hơn so với dữ liệu đã được làm sạch.
• Khó khăn trong việc hiểu dữ liệu: Dữ liệu không sạch có thể gây khó khăn trong việc hiểu và diễn giải dữ liệu.
Loại bỏ dòng trống
Để loại bỏ dòng trống trong Excel, bạn có thể sử dụng chức năng “Sort & Filter”.
Bước 1: chọn dữ liệu của bạn.
Bước 2: nhấn vào “Sort & Filter” trong thanh công cụ, sau đó chọn “Sort A to Z”.
Bước 3: tất cả các dòng trống sẽ được di chuyển đến cuối bảng dữ liệu của bạn.
Loại bỏ ký tự không mong muốn
Trong Excel, bạn có thể sử dụng hàm CLEAN và TRIM để loại bỏ các ký tự không mong muốn.
Ví dụ: nhìn vào hình trong hình, ở cột D2 và D4, có thể thấy có những khoản cách trống, cần xử lý loại bỏ những ký tự khoản cách này để làm sạch dữ liệu.
Bước 1: trong một ô trống E2, gõ công thức =TRIM(CLEAN(D2)) vào ô E2, trong đó D2 là ô chứa chuỗi cần làm sạch.
Bước 2: Nhấn Enter. Kết quả sẽ trả về dữ liệu sau khi đã loại bỏ các ký tự trống
Chuẩn hóa văn bản
Bạn có thể sử dụng các hàm LOWER, UPPER và PROPER để chuẩn hóa văn bản trong Excel.
• Hàm LOWER: là hàm giúp chuyển chữ in hoa thành chữ thường
• Hàm UPPER: dùng để chuyển chữ cái thường thành chữ in hoa
• Hàm PROPER: là hàm giúp viết hoa chữ thứ nhất trong một chuỗi văn bản nếu trước nó là một khoảng trắng và chuyển đổi tất cả các chữ khác thành chữ thường
Ví dụ: Trong hình bạn có cột B là cột “Loai HD”, với nhiều kiểu gõ chữ khác nhau
Bước 1: để chuẩn hóa văn bản thành một dạng duy nhất, bạn có thể sử dụng hàm LOWER, UPPER và PROPER, ở đây sẽ có ví dụ luôn cho cả 3 hàm trên tương ứng với cột C, D và E.
Bước 2: ở ô C2 gõ công thức: =LOWER(B2), ô D2 với công thức: =UPPER(B2) và ô E2 với công thức: =PROPER(B2). Sau đó bấm Enter. Kết quả sẽ trả về 3 cột dữ liệu với kiểu gõ khác nhau. Như vậy chúng ta đã hoàn thành chuẩn hóa cho một cột dữ liệu về cùng kiểu gõ chữ.
Bước 5: Chọn vị trí để đặt dữ liệu đã tách và nhấn “Finish”. Dữ liệu của bạn sẽ được tách thành hai cột riêng biệt.
Bước 6: kết quả trả về 2 cột đã được phân tách thành 2 dữ liệu riêng biệt.
Hy vọng với bài viết về "Làm sạch dữ liệu trong MS Excel" sẽ giúp các bạn có thêm kiến thức cũng như là kỹ năng để xử lý các dạng dữ liệu trong MS Excel để tiện cho việc thao tác sau khi làm sạch dữ liệu.
Bài viết phổ biến