데이터 검증 | 데이터 검증 | |
목적 | 데이터가 허용 가능한 값 범위 내에 있는지 확인 | 데이터가 정확하고 일관성이 있는지 확인 |
일반적으로 | 데이터가 생성되거나 업데이트될 때 | 데이터가 마이그레이션되거나 병합될 때 수행됩니다. |
예제 | 사용자가 입력한 우편 번호를 찾을 수 있는지 확인 | 데이터 집합의 모든 우편 번호가 우편 번호+4 형식인지 확인 |
평신도 용어로, 데이터 검증 및 데이터 유효성 검사는 동일한 것처럼 들릴 수 있습니다. 당신은 데이터 품질의 복잡한 탐구 할 때,그러나,퍼즐의 두 가지 중요한 부분은 분명히 다르다. 구별을 알면 데이터 품질에 대한 더 큰 그림을 더 잘 이해하는 데 도움이 될 수 있습니다.
데이터 유효성 검사 란 무엇입니까?
간단히 말해서,데이터 유효성 검사는 특정 정보 조각이 주어진 필드에 대해 허용되는 값 범위 내에 있는지 여부를 결정하는 프로세스입니다.
예를 들어 미국에서는 모든 거리 주소에 주에 대한 고유 필드가 포함되어야 합니다. 미국 우편 서비스에 의해 정의 된 상태 약어의 목록을 준수합니다. 아시다시피,그 약어는 특정 상태를 나타냅니다.
괌(“구”)과 북 마리아나 제도(“헌병”)와 같은 미국 영토에는 두 문자 약어도 있습니다. 주 필드에”지피”또는”답 7″을 입력했다면,그러한 주 또는 영토가 존재하지 않기 때문에 전체 주소를 무효화 할 것입니다. 데이터 유효성 검사는 데이터베이스의 기존 값에 대해 검사를 수행하여 유효한 매개 변수에 속하는지 확인합니다.
미국 이외의 국가를 포함하는 주소 목록의 경우,시/도/테리토리 필드는 상당히 긴 가능한 값 목록에 대해 유효성을 검사해야 하지만 기본 전제는 동일합니다. (참고로,정확하게 주소 유효성 검사 솔루션을 제공합니다)
예를 들어,어떤 경우에는 이전 예제보다 정밀도가 약간 낮지 만 주어진 필드에 대해 가능한 숫자 값에 대한 제한을 설정해야 할 수도 있습니다. 사람의 신장을 기록하는 경우 예상 범위를 벗어나는 값을 금지할 수 있습니다. 사람이 키가 12 피트(약 3 미터)인 것으로 데이터베이스에 나열되어 있으면 데이터가 잘못되었다고 가정 할 수 있습니다. 마찬가지로,해당 필드에 음수를 허용하지 않을 것입니다.
다행히도 이러한 종류의 유효성 검사는 일반적으로 응용 프로그램 수준 또는 데이터베이스 수준에서 수행됩니다. 예를 들어 전자 상거래 웹 사이트에 미국 기반 배송 주소를 입력하는 경우 미국에 대해 유효하지 않은 주 코드를 입력할 수 없을 것입니다.
전자책 읽기
“충분한”품질이 데이터 인사이트에 대한 신뢰를 약화시키는 방법
데이터 품질 조사에서 데이터 전문가의 주요 데이터 품질 인사이트 탐색
데이터 검증은 무엇이며 어떻게 다른가요?
반면 데이터 검증은 실제로 데이터 검증과 상당히 다릅니다. 검증은 현재 데이터가 정확하고 일관되며 의도된 목적을 반영하는지 확인하기 위해 현재 데이터를 검사합니다.
확인은 언제든지 발생할 수 있습니다. 즉,검증은 반복되는 데이터 품질 프로세스의 일부로 수행될 수 있지만,검증은 일반적으로 레코드가 처음 생성되거나 업데이트될 때 발생합니다.
외부 데이터 원본에서 데이터를 마이그레이션하거나 병합할 때 검증은 특히 중요한 역할을 합니다. 다만 작은 경쟁자를 취득한 회사의 케이스를 사려하십시요. 그들은 그들의 자신의 청구서 발송 체계로 취득한 경쟁자 고객 자료를 합병한것을 결정했다. 마이그레이션 프로세스의 일부로 원본 시스템에서 레코드가 제대로 전달되었는지 확인하는 것이 중요합니다.
마이그레이션을 위해 데이터를 준비 할 때 작은 오류가 발생하면 때때로 큰 문제가 발생할 수 있습니다. 고객 마스터 레코드의 키 필드가 잘못 할당된 경우(예:데이터가 준비될 때 스프레드시트의 셀 범위가 실수로 위 또는 아래로 이동된 경우)잘못된 고객에게 배송 주소 또는 미결제 송장이 할당될 수 있습니다.
따라서 대상 시스템의 정보가 원본 시스템의 정보와 일치하는지 확인하는 것이 중요합니다. 이 작업은 소스 및 대상 시스템의 데이터를 샘플링하여 수동으로 정확성을 확인하거나 가져온 데이터의 전체 검증을 수행하고 모든 레코드를 일치시키고 예외를 신고하는 자동화 된 프로세스를 포함 할 수 있습니다.
진행중인 프로세스로서의 검증
검증은 데이터 마이그레이션에만 국한되지 않습니다. 또한 시간이 지남에 따라 회사 데이터의 정확성과 일관성을 보장하는 데 중요한 역할을합니다.
제품을 구매한 소비자의 기존 데이터베이스가 있고 해당 제품에 대한 새 액세서리 프로모션을 메일로 보내려고 한다고 가정합니다. 너의 우편물보다 앞에 자료를 확인하는것은 저 고객 정보의 어떤은 구식일지도 모르다,그래서 보람있는다.
우편 서비스에서 주소 데이터베이스 변경에 대해 고객 주소를 확인하면 오래된 주소가 있는 고객 레코드를 식별할 수 있습니다. 대부분의 경우 해당 프로세스의 일부로 고객 정보를 업데이트할 수도 있습니다.
중복 레코드 식별은 또 다른 중요한 데이터 검증 활동입니다. 너의 고객 데이타베이스가 동일한 고객을 3 4 시간 목록으로 만들면,그때 너는 그들에게 중복 우편물을 보내게 할 것 같다. 이것은 당신에게 더 많은 돈을 비용뿐만 아니라,그것은 또한 부정적인 고객 경험을 초래한다.
중복 제거 프로세스를 더욱 어렵게 만들기 위해 동일한 고객에 대한 여러 레코드가 사용자 이름에 약간 다른 변형을 사용하여 생성되었을 수 있습니다. 퍼지 논리를 사용하여 가능한 일치 항목을 식별하는 도구는 프로세스를 더 잘 작동시킬 수 있습니다.
데이터 품질 요구 사항
점점 더 많은 비즈니스 리더들이 인공 지능/기계 학습 및 최신 비즈니스 인텔리전스 도구를 사용하여 추출 할 수있는 통찰력에서 데이터의 전략적 가치를 이해하게되었습니다.
그러나 불행하게도,옛말”쓰레기,쓰레기 아웃”은 그 어느 때보 다 지금 더 적용됩니다. 데이터 양이 증가함에 따라 데이터 중심 기업은 데이터 품질을 일상적으로 모니터링하고 관리하기 위한 사전 예방 조치를 마련해야 합니다. 그렇지 않으면 결함이있는 정보를 기반으로 한 통찰력에 따라 행동 할 위험이 있습니다.
자세히 알아보려면 당사의 전자책:”충분히 좋은”품질이 데이터 인사이트에 대한 신뢰를 어떻게 약화시키고 있는지 읽어보십시오.