Certificate of Data Quality
- 인증 유형
데이터 구조‧관리 특성에 따라 적용 가능한 필수 지표(기본 중요 지표)와 선택 지표(기준 정보에 따른 점검 지표)로 구분 데이터의 복잡도를 고려하여 적용되는 지표에 따라 인증 유형 기준 적용구분 | 기준 |
---|---|
Complex-Type | 필수 심사 항목 전체 적용 및 선택 심사 항목 3개 이상 적용 |
Normal-Type | 필수 심사 항목 전체 적용 및 선택 심사 항목 3개 미만 적용 |
Simple-Type | 필수 심사 항목 일부 적용(불가피하게 데이터 특성에 따라 일부 항목 진행 불가 시) |
- 심사지표
데이터의 품질 수준에 따라 3개 등급으로 판정 기준을 구분구분 | 판정기준 |
---|---|
Class A | 데이터 품질 점수 0.99 이상 |
Class B | 데이터 품질 점수 0.97 이상 |
Class C | 데이터 품질 점수 0.95 이상 |
- 정형데이터 심사 대상
정해 놓은 형식과 구조에 따라 저장되도록 구성된 데이터로 테이블과 컬럼으로 구성되어 있음- 정형데이터 심사 지표
과학기술정보통신부 데이터품질인증 운영 지침을 기준으로 ISO/IEC 25024 평가 항목을 적용하여 정형데이터 자체(inherent) 품질을 판정하기 위한 심사 지표 구성구분 | 번호 | 데이터 품질기준 | 심사항목 | 설명 |
---|---|---|---|---|
필수 | 1 | 완전성 | 데이터값 완전성 | NOT NULL로 선언된 데이터 아이템 중 NULL이 포함된 데이터 아이템 수의 비율 |
2 | 데이터 파일 레코드 완전성 | 전체 데이터 파일 안의 레코드 중 모든 데이터 아이템 값이 비어있는 레코드 수의 비율 | ||
3 | 유효성 | 구문 유효성 | 구문적으로 정확한 값을 갖는 데이터값의 비율 | |
4 | 의미 유효성 | 의미적으로 정확한 데이터값의 비율 | ||
5 | 범위 유효성 | 지정된 범위 안에 포함된 데이터값의 비율 | ||
6 | 관계 유효성 | 컬럼 간의 관계규칙이 정의된 데이터 중 관계규칙을 만족하는 데이터의 비율 | ||
7 | 일관성 | 참조 무결 일관성 | 테이블의 한 속성의 다른 테이블에서 같은 속성의 같은 값으로 존재하는 비율 | |
선택 | 1 | 유효성 | 데이터값 정밀성 | 명세서의 정밀도를 만족하는 데이터값의 비율 |
2 | 일관성 | 데이터 포맷 일관성 | 데이터 포맷 일관성이 요구되는 데이터 중 포맷 일관성을 만족하는 데이터 비율 | |
3 | 공통 어휘 일관성 | 데이터 사전에 정의된 공통어휘를 사용하는 데이터 비율 | ||
4 | 정확성 | 메타 데이터 정확성 | 요구사항 명세서에 정의된 메타 데이터 중 적절한 정보는 제공하는 메타 데이터 비율 | |
5 | 데이터값 정확성 | 데이터 파일 내 데이터값에서 기대 값을 만족하는 데이터값의 비율 | ||
6 | 접근성 | 표준기반 데이터 접근성 | 표준, 협약 또는 규정이 요구되는 데이터 중 해당 표준, 협약 또는 규정에 적합한 데이터 비율 | |
7 | 유일성 | 데이터값 유일성 | 데이터값에 중복이 존재하는 데이터값의 비율 |
- 비정형데이터 심사 대상
비정형 데이터 : 비정형데이터는 일반적으로 객체(이미지, 비디오, 사운드, 텍스트) 데이터와 메타데이터(객체 설명 또는 태깅·라벨링 등 작업 내용 설명)로 구성됨- 비정형데이터 심사 지표
과학기술정보통신부 데이터품질인증 운영 지침을 기준으로 ISO/IEC FDIS 5259-2, NIA 학습용 데이터 품질 관리 가이드라인, TTAK.KO-10.1344-Part2 평가 항목을 적용하여 비정형데이터 품질을 판정하기 위한 심사 지표 구성구분 | 번호 | 데이터 품질기준 | 심사 항목명 | 설명 |
---|---|---|---|---|
필수 | 1 | 완전성 | 데이터파일 레코드 완전성 | 데이터 파일의 데이터값에 대한 값의 완전성 |
2 | 레코드 완전성 | 데이터 세트에 빈 데이터 아이템이 없는 데이터 레코드의 비율 | ||
3 | 메타 데이터값 완전성 | 비정형 객체에 대한 메타 데이터 내 필수 항목이 Not Null인 데이터의 비율 | ||
4 | 유효성 | 데이터 구조 구문 유효성 | 비정형 객체에 대한 메타데이터나 라벨링 데이터의 구조가 정의된 구조에 적합한 데이터의 비율 | |
5 | 데이터 포맷 유효성 | 비정형 객체가 정의된 파일의 포맷에 적합한 데이터 비율 | ||
6 | 파일 유효성 |
비정형 객체 중 실제 활용할 수 있는 파일의 비율 ㅇ실제 활용이 어려운 예 - 공통 : 파일을 열어 정상적으로 파일이 동작하는지 확인 - 이미지 : 이미지가 깨진 경우 - 텍스트 : 텍스트가 깨져서 내용 확인이 어려운 경우 - 비디오 : 영상이 깨져 내용 확인이 어려운 경우 - 오디오 : 요구 사항에 없는 노이즈 또는 사운드 데이터가 비어 내용 확인이 어려운 경우 |
||
7 | 정확성 | 구문 정확성 | 비정형 객체에 대한 메타데이터나 라벨링 데이터 내 속성(컬럼)값이 명세서 기준 구문적으로 정확한 값을 갖는 데이터 아이템의 비율 | |
8 | 메타 데이터 정확성 | 비정형 객체의 메타 데이터의 값이 정확한 비율(예: 파일명, 해상도, 확장자 등) | ||
9 | 유일성 | 객체 유일성 | 동일한 객체 데이터가 존재하는 비율(파일명이 아닌 데이터의 내용의 동일성 측정) | |
선택 | 10 | 완전성 | 어노테이션 완전성 |
학습용 데이터의 경우, 객체 데이터에 라벨이 존재하는 비율 (학습용 데이터의 경우 필수 항목으로 적용) ㅇ 유형별 어노테이션 예 - 텍스트 : 내용 요약, 변역, 질의응답, 말뭉치 태깅 등 - 이미지/비디오 : 라벨링, 바운딩박스, 키포인트, 세그멘테이션, 태깅 등 - 오디오 : 전사 등 |
11 | 특징 완전성 | 데이터 세트의 지정(요구)된 특징에 대하여 null 데이터값이 없는 데이터 아이템의 비율 | ||
12 | 유효성 | 관계 유효성 | 비정형 객체의 속성과 메타데이터/어노테이션 데이터의 속성들 간의 규칙이 존재하는 경우, 규칙에 맞는 데이터 아이템의 비율 | |
13 | 데이터값 정밀성 | 데이터 명세서에 요구되는 정밀도 만족하는 데이터값의 비율 | ||
14 | 데이터 속성 유효성 | 비정형 객체 데이터의 속성이 기준에 적합한 비율 ㅇ 유형별 속성 예 - 이미지 : 밝기, 해상도, 컬러심도, 픽셀당 비트수 등 - 동영상 : 해상도, 컬러심도, 프레임레이트, 재생시간 등 - 오디오 : 주파수, 재생시간, 평균 데시벨 등 - 텍스트 : 어절수, 어휘 개수, 문장의 길이 등급 |
||
15 | 범위 유효성 | 메타데이터 또는 어노테이션 데이터의 속성 값이 요구되는 범위 안에 포함되는 비율 | ||
16 | 시간 유효성 | 비정형 객체 데이터의 생성 또는 수집 시간이 기준 시간을 만족하는 비율 | ||
17 | 어노테이선 유효성 | 학습용 데이터의 경우, 어노테이션 데이터의 어노테이션 값이 기준을 만족하는 비율(예: 바운딩박스 크기, 정해진 카테고리 또는 라벨링 기준 등) | ||
18 | 일관성 | 공통 어휘 일관성 | 데이터 사전에 정의된 용어(terms)로 사용되는 공통 인식 어휘 비율 | |
19 | 데이터 포맷 일관성 | 동일한 데이터 아이템의 데이터 포맷을 준수하는 데이터 아이템 비율 | ||
20 | 정확성 | 어노테이션 정확성 | 학습 데이터의 경우, 어노테이션 데이터가 정확한 비율 ㅇ 유형별 어노테이션 예 - 텍스트 : 내용 요약, 변역, 질의응답, 말뭉치 태깅 등 - 이미지/비디오 : 라벨링, 바운딩박스, 키포인트, 세그멘테이션, 태깅 등 - 오디오 : 전사 등 |
|
21 | 주제 정확성 | 비정형 객체가 주어진 주제(컨텍스트)를 반영하는 비율 | ||
22 | 접근성 | 데이터 포맷 접근성 | 일반적인 데이터 포맷으로 의도된 사용자가 데이터나 정보에 접근할 수 비율 (예 : 이미지의 경우 jpg, png, bmp 등) | |
23 | 표준기반 데이터 접근성 | 표준, 협약 또는 규정에 부합해야 하는 전체 데이터 아이템의 비율 | ||
24 | 유일성 | 레코드 유일성 | 데이터 세트의 중복 레코드 비율 |
인증 수준 | 성숙도 수준 | 특징 | 인증여부 | |
---|---|---|---|---|
Level 1 | 1 | 도입 | 데이터 품질 인식은 존재하지만 체계적인 관리 활동 미흡 | 인증하지 않음 |
Level 2 | 2 | 관리 | 기본적인 관리 활동 존재(성과 관리 및 산출물 관리) | 인증함 |
Level 3 | 3 | 체계화 | 공식화된 관리 활동이 체계적으로 수행 | 인증함 |
Level 4 | 4 | 예측화 | 계량적이고 통계적인 방법으로 성과를 안정적으로 유지 | 인증함 |
Level 5 | 5 | 혁신화 | 데이터 품질 관리체계를 지속적으로 고도화 | 인증함 |
- 심사 대상 : ISO/IEC 8000-61을 준용하여 능력 수준별 데이터 품질관리 프로세스
능력 수준 | 프로세스 속성 | |||
---|---|---|---|---|
0 | 불완전 | 적용 불가 | ||
1 | 수행 | PA 1.1 | 프로세스 수행 | 프로세스가 정의된 프로세스 결과를 달성 |
2 | 관리 | PA 2.1 | 성과 관리 | 프로세스 수행이 관리되는 정도를 측정하는 속성 |
PA 2.2 | 작업 산출물 관리 | 작업 산출물이 적절히 관리되는 정도를 측정하는 속성 | ||
3 | 체계화 | PA 3.1 | 프로세스 정의 | 표준 프로세스가 정의된 프로세스의 전개를 지원할 수 있도록 유지관리되는 정도를 측정하는 속성 |
PA 3.2 | 프로세스 전개 | 표준 프로세스가 프로세스 산출물을 달성할 수 있도록 정의된 프로세스와 같이 전개되는 정도를 측정하는 속성 | ||
4 | 예측화 | PA 4.1 | 정량적 분석 | 정보 필요가 정의되고, 프로세스 요소 간 관련성이 식별되고, 데이터가 수집되는 정도를 측정하는 속성 |
PA 4.2 | 정량적 통제 | 프로세스 성과가 예측 가능하도록 관리하기 위해 객관적 데이터가 사용되는 정도를 측정하는 속성 | ||
5 | 혁신화 | PA 5.1 | 프로세스 혁신 | 프로세스의 정의 및 전개를 위한 혁신적인 방법에 대한 탐구를 통해 프로세스의 변경이 식별된 정도를 측정하기 위한 속성 |
PA 5.2 | 프로세스 혁신 구현 | 관련성 있는 프로세스 혁신 목적을 달성하는 프로세스의 정의, 관리 및 수행에 대한 변화의 정도를 측정하기 위한 속성 |
- 심사 방법 : ISO/IEC 33020을 준용한 프로세스 능력(capability)은 5개 성숙도별 요구사항의 적합 여부 심사
성숙도 수준 | 내용 설명 | |
---|---|---|
1 | 도입 | 운영 프로세스가 요구사항을 충족하는 데이터를 접근할 수 있음을 입증할 수 있다. 이러한 데이터에는 적절한 보안 고려사항이 적용된다. 요구사항 관리 및 데이터 처리 활동에 대한 증빙 자료를 제공하지 않는다. |
2 | 관리 | 요구사항을 관리하고 데이터 처리 수행 방법을 관리하게끔 운영 프로세스가 데이터를 사용한다는 것을 입증할 수 있다. 데이터가 요구사항을 충족하는 증빙 자료를 제공할 수 있다. |
3 | 체계화 | 운영 프로세스가 조직이 데이터 품질관리를 수행하기 위해 공통적이고 반복 가능한 프로세스를 구현한 데이터를 사용한다는 것을 입증할 수 있다. |
4 | 예측화 | 운영 프로세스가 데이터 품질관리를 수행하기 위해 예측 가능한 프로세스를 구현한 데이터를 사용한다는 것을 입증할 수 있다. 예측 가능성에는 데이터 품질관리 성과 측정을 수반한다. |
5 | 혁신화 | 운영 프로세스가 조직의 목표를 달성하는 데 지속 가능한 데이터 품질관리를 수행하기 위한 프로세스를 구현한 데이터를 사용한다는 것을 입증할 수 있다. 이러한 지속 가능성에는 적절한 혁신이 적용된다. |
ISO 8000-61, 62 및 국내 실무를 고려하여 5개 인증 수준(Lv.)별 심사 대상 프로세스는 다음과 같음.
인증 수준 | 심사 대상 프로세스 | |
---|---|---|
Level 2 |
DQP.1 요구사항 관리 DQC.1 데이터 명세 및 작업지시서 제공 DQC.2 데이터 처리 작업 관리 |
DQC.3 데이터 품질 모니터링 및 통제 DRS.4 데이터 보안 관리 |
Level 3 |
DQP.1 요구사항 관리 DQP.2 데이터 품질 전략 관리 (필수 아님) DQP.3 데이터 품질 기준 문서 관리 DQP.4 데이터 품질 계획 수립 (필수 아님) DQC.1 작업 지시 및 처리 지침 제공 DQC.2 데이터 처리 작업 관리 DQC.3 데이터 품질 모니터링 및 통제 DQA.2 측정 기준 제공(데이터 품질 측정 기준 제공만 해당) |
DQA.3 데이터 품질 및 프로세스 성과 측정(데이터 품질 수준 측정만 해당) DQI.2 데이터 오류 및 프로세스 수정 DRS.1 데이터 아키텍처 관리 DRS.3 데이터 운용 관리 DRS.4 데이터 보안 관리 RPV.1 데이터 품질 조직 관리 |
Level 4 |
DQP.1 요구사항 관리 DQP.2 데이터 품질 전략 관리 DQP.3 데이터 품질 기준 문서 관리 DQP.4 데이터 품질 계획 수립 DQC.1 작업 지시 및 처리 지침 제공 DQC.2 데이터 처리 작업 관리 DQC.3 데이터 품질 모니터링 및 통제 DQA.1 데이터 품질 이슈 검토 DQA.2 측정 기준 제공 |
DQA.3 데이터 품질 및 프로세스 성과 측정 DQA.4 측정 결과 평가 DQI.2 데이터 오류 및 프로세스 수정 DRS.1 데이터 아키텍처 관리 DRS.2 데이터 흐름 관리 DRS.3 데이터 운용 관리 DRS.4 데이터 보안 관리 RPV.1 데이터 품질 조직 관리 RPV.2 인적 자원 관리 |
Level 5 |
DQP.1 요구사항 관리 DQP.2 데이터 품질 전략 관리 DQP.3 데이터 품질 기준 문서 관리 DQP.4 데이터 품질 계획 수립 DQC.1 작업 지시 및 처리 지침 제공 DQC.2 데이터 처리 작업 관리 DQC.3 데이터 품질 모니터링 및 통제 DQA.1 데이터 품질 이슈 검토 DQA.2 측정 기준 제공 DQA.3 데이터 품질 및 프로세스 성과 측정 |
DQA.4 측정 결과 평가 DQI.1 원인 분석 및 해결 방안 도출 DQI.2 데이터 오류 및 프로세스 수정 DQI.3 데이터 관리 프로세스 개선 DRS.1 데이터 아키텍처 관리 DRS.2 데이터 흐름 관리 DRS.3 데이터 운용 관리 DRS.4 데이터 보안 관리 RPV.1 데이터 품질 조직 관리 RPV.2 인적 자원 관리 |
심사 대상 프로세스 |
중점 관리 목표 요약 | 적용 대상 심사 항목 |
심사 방법 및 증빙(예시) | 해당 인증 수준 | ||||
---|---|---|---|---|---|---|---|---|
2 | 3 | 4 | 5 | |||||
DQP.1 요구사항 관리 |
(i) | 이해관계자 분석, 데이터 요구사항의 수집, 분류, 현행화에 대한 관리 | PA2.1 | 제안요청서(RFP)‧협의를 통해 작성한 요구사항 목록, 서비스 요청(SR) 처리 절차‧도구 | ||||
(ii) | 이해관계자 의견, 불만 및 데이터 오류의 접수 및 처리에 대한 관리 | PA2.1 | 사용자 불만 신고 및 처리 절차, 데이터 오류 신고 및 처리 절차 | |||||
(iii) | 요구사항 만족도 점검 및 불만족 해소에 대한 관리 | PA2.1 | 사업결과보고서, 단계/기간별 보고서, 사용자 만족도 조사 결과, SR 처리 현황 검토 결과 | |||||
DQP.2 데이터 품질 전략 관리 |
(i) | 데이터 품질 목표 및 품질 전략의 수립 | PA3.1 | 데이터 품질 관련 전략(또는 사업계획서 등)에서 데이터 품질 목표와 추진 방법 확인 | ||||
(ii) | 데이터 품질 목표와 전략의 공유 및 후속 프로세스 반영 * DQP.4에만 반영할 수도 |
PA3.2 | 데이터 품질 관련 전략, 데이터 품질 기준 문서 및 계획간 연계성 확인 | |||||
DQP.3 데이터 품질 기준 문서 관리 |
(i) | 데이터 품질 정책과 표준의 수립 및 현행화 | PA3.1 | 데이터 품질 관련 정책, 데이터 품질 관련 표준(단어/용어, 모델링 방법 및 도구 등) | ||||
데이터 품질 정책과 표준의 배포 및 실무 적용 | PA3.2 | |||||||
(ii) | 데이터 품질 절차와 규정의 수립 및 현행화 | PA3.1 | 데이터 관리 규정 및 지침(또는 데이터 품질 관리 매뉴얼, 규정, 지침 등) | |||||
데이터 품질 절차와 규정의 배포 및 실무 적용 | PA3.2 | |||||||
DQP.4 데이터 품질 실행 계획 수립 |
(i) | 데이터 품질 목표 및 전략 달성을 위한 계획 수립 | PA3.1 | 데이터 품질 계획, 사업계획서 등에서 확인 | ||||
데이터 품질 계획 추진 및 단계별 성과 점검 | PA3.2 | 단계/기간별 보고서, 사업 결과 보고서, 고객 검수 결과등에서 확인 | ||||||
(ii) | 데이터 품질 수준 및 프로세스 성과와 관련한 목표 수립 | PA4.1 | 데이터 품질 활동 계획 등에서 관련 목표 확인 | |||||
DQC.1 작업 지시 및 처리 지침 제공 |
(i) | 데이터 명세서(데이터 개체, 속성, 관계 등)의 제공 | PA2.1 | 작업 관련 데이터 명세서(ERD, 테이블/컬럼/코드 정의 서) | ||||
(ii) | 작업지시서(목적, 범위, 일정, 도구, 산출물 등)의 제공 | PA2.1 | 작업지시서(또는 데이터 처리 작업지시에 사용되는 절차) | |||||
(iii) | * Lv.3에서는 상기 (i), (ii)를 DQP.3에 포함하여 심사 가능 | PA3.1 PA3.2 |
DQP.3 참조 | |||||
DQC.2 데이터 처리 작업 관리 |
(i) | 명세서, 작업지시서 등에 따라 데이터를 처리하도록 관리 | PA1.1 PA2.1 |
데이터 처리 작업 일지(목록, 이력 등) | ||||
(ii) | 데이터 처리 산출물의 보관, 제공, 백업, 버전 관리 | PA1.1 PA2.1 |
데이터 처리 산출물 라이브러리, 이의 버전(변경 이 력) 및 백업 기록 | |||||
(iii) | 데이터 처리 결과를 반영한 데이터 명세서 현행화 | PA1.1 PA2.1 |
데이터 명세서 버전(또는 변경 이력) |