Certificate of Data Quality
■ 정형데이터 내용
- 심사항목
구분 | 적용항목 |
---|---|
필수 항목 | 완전성(값, 레코드), 유효성(구문, 의미, 범위, 관계), 일관성(참조 무결성) 7개 세부 항목 |
선택 항목 | 유효성(값 정밀성), 일관성(포맷, 어휘), 정확성(메타정보, 값), 접근성(표준기반 데이터 접근성), 유일성(값) 7개 세부 항목 |
기타 항목 | 완전성(데이터 파일) - 대상의 정보(레코드)가 다른 경우 심사 중단 유효성(이상치) - 명세서 내 이상치 정보가 있는 경우 점검 |
- 심사항목
구분 | 번호 | 기준 | 심사항목 | 설명 | 심사 항목 적용 기준 |
---|---|---|---|---|---|
필수 | 1 | 완전성 | 데이터 값 완전성 | 데이터 파일의 데이터 아이템에 대한 값의 완전한 비율 | 데이터 명세 등에 Not null 조건이 있는 경우 |
2 | 데이터 파일 레코드 완전성 | 데이터 파일 내의 레코드 수가 완전한 비율 | 레코드를 정의할 수 있는 경우 | ||
3 | 유효성 | 구문 유효성 | 구문적으로 정확한 값을 갖는 데이터 비율 | 구문 정확성이 요구되는 경우 (예: 도메인 규칙, 데이터 타입 등) | |
4 | 의미 유효성 | 의미적으로 정확한 데이터 값의 비율 | 해당 필드 또는 속성에 의미상으로 유효한 리스트가 존재하는 경우 | ||
5 | 범위 유효성 | 지정된 범위 안에 포함된 데이터 비율 | 명세서 등에 범위(숫자)가 정의된 경우 (예: 최대값, 최소값이 적용 가능한 수치) | ||
6 | 관계 유효성 | 컬럼 간의 관계 규칙을 만족하는 데이터 비율 | 명세서 등에 의미론적 업무규칙이 정의된 경우 (예: 성별과 주민등록번호의 뒤 첫자리) | ||
7 | 일관성 | 참조 무결 일관성 | 참조하는 테이블 간 동일한 속성값이 일관된 데이터 비율 | 명세서 등에 테이블간의 참조 무결성이 요구되는 경우 | |
선택 | 1 | 유효성 | 데이터 값 정밀성 | 명세서의 정밀도를 만족하는 데이터 값의 비율 | 명세서 등에 정밀도가 정의된 경우 ※ 반정형의 경우 단위와 자리수를 고려하여 측정(예: 자리수-소수점, 시간 등) |
2 | 일관성 | 데이터 포맷 일관성 | 데이터의 포맷(또는 구문)이 일관성이 있는 데이터 비율 | 명세서 등에 데이터 포맷이 정의되어 있고, (예: 날짜표시형식) 2개 이상의 유사한 특성 컬럼이 존재하는 경우 | |
3 | 공통 어휘 일관성 | 데이터 사전에 정의된 공통어휘를 사용하는 데이터 비율 | 명세서 등에 데이터 사전(공통어휘) 정의된 경우 | ||
4 | 정확성 | 메타 데이터 정확성 | 요구명세서에 정의된대로 정보는 제공하는 메타 데이터 비율 | 요구사항 명세서에 메타 데이터에 제공되어야 하는 정보가 기록된 경우 | |
5 | 데이터 값 정확성 | 명세서의 업무 규칙에 따라 기대 값을 만족하는 데이터 비율 | 기대되는 데이터값의 값이 정의된 경우(예: 업무규칙 등) | ||
6 | 접근성 | 표준기반 데이터 접근성 | 해당 표준, 협약 또는 규정에 적합한 데이터 비율 | 표준, 협약 또는 규정이 존재하는 데이터의 경우 | |
7 | 유일성 | 데이터 값 유일성 | 데이터 값이 중복없이 유일하게 존재하는 데이터 비율 | 명세서 내 값의 중복을 허용되지 않는 데이터값이 존재하는 경우 |
■ 비정형데이터/AI학습용데이터 내용
■ 데이터 관리체계
■ 정형데이터 내용
- 인증 통과 기준
구분 | 인증 심사 범위 | 인증 통과 기준 |
---|---|---|
A등급 | 필수 심사항목 전체 및 선택 항목 3개 이상 | ㅇ심사항목 평균 0.99(1-오류/전체검사) 이상 ㅇ개별 심사항목 0.95 이상 |
B등급 | 필수 심사항목 전체 | ㅇ심사지표 평균 0.97(1-오류/전체검사) 이상 ㅇ개별 심사항목 0.95 이상 |
C등급 | 필수 심사항목 일부 (불가피하게 데이터 특성에 따라 일부 항목 진행 불가 시) |
ㅇ개별 심사항목 0.95 이상 |