in

Cách làm sạch dữ liệu trong SPSS (Data Cleaning)

Về cơ bản, không phải dữ liệu nào cũng chuẩn 100%. Làm sạch dữ liệu trong SPSS – còn được gọi là làm sạch và lọc dữ liệu, là một trong những bước quan trọng nhất để quản lý chất lượng dữ liệu đầu vào.

Cách làm sạch dữ liệu trong SPSS (Data Cleaning)

Làm sạch dữ liệu trong SPSS là gì?

Làm sạch dữ liệu là quá trình sửa hoặc xóa dữ liệu không chính xác, bị hỏng, định dạng không chính xác, trùng lặp hoặc không đầy đủ trong tập dữ liệu. Khi kết hợp nhiều nguồn dữ liệu, thường sẽ gặp vấn đề như: dữ liệu bị trùng lặp hoặc gắn nhãn sai. Nếu dữ liệu không chính xác, kết quả và thuật toán sẽ không đáng tin cậy, mặc dù chúng có thể đúng.

Không có một cách tuyệt đối nào để quy định các bước chính xác trong quy trình làm sạch dữ liệu bởi vì các quy trình sẽ khác nhau giữa các tập dữ liệu. Nhưng điều quan trọng là phải thiết lập một khuôn mẫu cho quá trình làm sạch dữ liệu của bạn để bạn biết rằng mình đang làm đúng cách.

Sự khác biệt giữa làm sạch dữ liệu (data cleaning) và chuyển đổi dữ liệu (data transformation) là gì?

Làm sạch dữ liệu là quá trình loại bỏ dữ liệu không thuộc về tập dữ liệu của bạn. Chuyển đổi dữ liệu là quá trình chuyển đổi dữ liệu từ một định dạng hoặc cấu trúc này sang một định dạng hoặc cấu trúc khác. Quá trình chuyển đổi cũng có thể được gọi là kết hợp dữ liệu, hoặc trộn dữ liệu, chuyển đổi và ánh xạ dữ liệu từ một dạng dữ liệu “thô” sang một định dạng khác để nhập và phân tích. Bài viết này tập trung vào các quy trình làm sạch dữ liệu.

Làm thế nào để làm sạch dữ liệu

Mặc dù các kỹ thuật được sử dụng để làm sạch dữ liệu có thể khác nhau tùy theo loại dữ liệu mà công ty bạn lưu trữ, nhưng bạn có thể làm theo các bước cơ bản sau để vạch ra quy trình cho tổ chức của mình.

Bước 1: Xóa các giá trị trùng lặp hoặc không liên quan

Loại bỏ các thống không mong muốn khỏi tập dữ liệu của bạn, bao gồm cả trùng lặp hoặc các trường không liên quan. Các thống kê trùng lặp sẽ xảy ra thường xuyên nhất trong quá trình thu thập dữ liệu. Khi bạn kết hợp các tập dữ liệu từ nhiều nơi, phân loại dữ liệu hoặc nhận dữ liệu từ khách hàng hoặc nhiều phòng ban, sẽ dẫn đến các thống kê bị trùng lặp. Loại bỏ trùng lặp là một trong những vấn đề lớn nhất cần phải được xem xét trong quá trình này.

Những thống kê không phù hợp là những thống kê không phù hợp với vấn đề cụ thể mà bạn đang cố gắng phân tích. Ví dụ: nếu bạn muốn phân tích dữ liệu liên quan đến khách hàng lâu năm, nhưng tập dữ liệu của bạn bao gồm các khách hàng mới, bạn có thể loại bỏ các thống kê không liên quan này. Điều này có thể giúp phân tích hiệu quả hơn và giảm thiểu sự phân tâm khỏi mục tiêu chính của bạn — cũng như tạo ra một tập dữ liệu dễ quản lý hơn và hoạt động hiệu quả hơn.

Bước 2: Sửa lỗi cấu trúc

Lỗi cấu trúc là khi bạn đo lường hoặc chuyển dữ liệu và nhận thấy một số vấn đề như: các quy ước đặt tên lạ, lỗi chính tả hoặc viết hoa không chính xác…. Những vấn đề này có thể gây ra các danh mục hoặc lớp bị gắn nhãn sai. Ví dụ: bạn có thể thấy “N/A” và “Not Applicable” đều xuất hiện, nhưng chúng phải được phân tích chung cho một danh mục.

Bước 3: Lọc các ngoại lệ không mong muốn

Thông thường, sẽ có những thống kê khác biệt, chúng dường như không phù hợp với dữ liệu bạn đang phân tích. Nếu bạn có lý do chính đáng để loại bỏ một ngoại lệ, chẳng hạn như nhập dữ liệu không đúng cách, làm như vậy sẽ giúp ích cho hiệu suất của dữ liệu bạn đang làm việc.

Tuy nhiên, đôi khi chính sự xuất hiện từ dữ liệu thống kê của một người khác sẽ chứng minh một lý thuyết mà bạn đang nghiên cứu. Hãy nhớ rằng: chỉ bởi vì tồn tại một ngoại lệ, không có nghĩa là nó không chính xác. Bước này là cần thiết để xác định tính hợp lệ của số đó. Nếu một ngoại lệ được chứng minh là không thích hợp để phân tích hoặc là một sai lầm, hãy xem xét loại bỏ nó.

Bước 4: Xử lý dữ liệu bị thiếu

Bạn không thể bỏ qua dữ liệu bị thiếu vì nhiều thuật toán sẽ không chấp nhận các giá trị bị thiếu. Có một số cách để đối phó với dữ liệu bị thiếu. Tất cả đều không phải là tối ưu, nhưng chúng đều có thể xem xét được:

  • Tùy chọn đầu tiên: bạn có thể loại bỏ các thống kê có giá trị bị thiếu, nhưng làm điều này sẽ làm giảm hoặc mất thông tin, vì vậy hãy lưu ý đến điều này trước khi bạn xóa nó.
  • Tùy chọn thứ hai: bạn có thể nhập các giá trị còn thiếu dựa trên các thống kê khác; Tuy nhiên, Dữ liệu có thể mất tính toàn vẹn vì bạn có thể đang điền đủ thông tin dựa trên các giả định chứ không phải các quan sát thực tế.
  • Tùy chọn thứ ba: bạn có thể thay đổi cách dữ liệu được sử dụng để điều hướng các giá trị vô giá trị – null values một cách hiệu quả.

Bước 5: Xác thực và QA

Ở cuối quá trình làm sạch dữ liệu trong SPSS, bạn sẽ có thể trả lời những câu hỏi này như một phần của quá trình xác thực cơ bản:

  • Dữ liệu có ý nghĩa không?
  • Dữ liệu có tuân theo các quy tắc thích hợp cho trường của nó không?
  • Bạn có thể tìm thấy xu hướng trong dữ liệu để giúp bạn hình thành lý thuyết tiếp theo của mình không?
  • Nếu không, Chúng có phải là dữ liệu chất lượng không?

Việc kết luận sai vì dữ liệu không chính xác hoặc “bẩn” có thể khiến Bạn gặp phải vấn đề như: cung cấp thông tin không chính xác dẫn đến đưa ra những chiến lược và quyết định sai lầm. Việc đưa ra kết luận sai có thể dẫn đến khoảnh khắc bối rối trong cuộc họp báo cáo khi bạn nhận ra rằng dữ liệu của mình không đủ khả năng để đánh giá.

Tiêu chí đánh giá dữ liệu chất lượng

Việc xác định chất lượng dữ liệu đòi hỏi phải kiểm tra các đặc điểm của nó, sau đó cân nhắc các đặc điểm đó theo những gì quan trọng nhất đối với tổ chức của bạn và (các) ứng dụng mà chúng sẽ được sử dụng.

  • Hiệu lực. Mức độ mà dữ liệu của bạn tuân theo các quy tắc hoặc ràng buộc đã đưa ra.
  • Sự chính xác. Đảm bảo dữ liệu của bạn gần với giá trị thực.
  • Tính hoàn chỉnh. Mức độ mà tất cả dữ liệu bắt buộc được biết đến.
  • Tính nhất quán. Đảm bảo dữ liệu của bạn nhất quán trong cùng một tập dữ liệu và / hoặc trên nhiều tập dữ liệu.
  • Tính đồng nhất. Mức độ dữ liệu được chỉ định bằng cách sử dụng cùng một đơn vị đo lường.

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments