유대인 사본 모음집인 카이로 제니자(Cairo Geniza)는 서기 950년에서 1250년 사이의 역사를 독특하게 엿볼 수 있는 기회를 제공합니다. 불행히도 그 나뭇잎은 전 세계의 박물관과 도서관에 흩어져 있습니다. 연구원들은 이제 컴퓨터를 사용하여 조각들을 다시 합치려고 노력하고 있습니다.
1800년경에 발견된 이 사본은 현재 전 세계에 흩어져 있습니다. 이집트 카이로 회당의 게니자(보관실)에서 나온 원고 조각입니다. 시간이 지남에 따라 게니자에서 문서를 태우는 것이 관례이기 때문에 원고는 매우 특별합니다. Cairo Geniza(컬렉션이라고 함)는 서기 950년에서 1250년 사이의 역사를 독특하게 엿볼 수 있는 기회를 제공합니다.
안타깝게도 문서가 서로 다른 도서관에 저장되어 있기 때문에 과학자들이 문서를 연구하는 것은 쉽지 않습니다. 가장 큰 조각 컬렉션(280,000개 중 약 193,000개)은 케임브리지(영국)에 있지만 뉴욕(미국)과 맨체스터(영국)에도 대규모 컬렉션이 있습니다. 다행히도 점점 더 많은 조각이 디지털화되고 있습니다. 그러나 여전히 문제가 있습니다. 어떤 조각이 함께 모여 원고를 구성합니까?
컴퓨터로
텔아비브 대학교(이스라엘)와 Friedberg Genizah 프로젝트의 연구원들은 조인이라는 시스템을 개발했습니다. 결정할 수 있다; 동일한 문서에서 나온 조각 그룹입니다. 이미지 처리 기술을 사용하여 스캔한 페이지 모음을 분석하고 이를 기반으로 항상 두 조각이 서로 속하는지 평가합니다.
무엇보다도 분석을 어렵게 만드는 것은 스캔할 때 자동 분석이 고려되지 않았다는 것입니다. 즉, 배경이 항상 동일하지는 않고, 조각이 반드시 직선일 필요는 없으며, 때로는 눈금자가 사진에 배치되는 경우도 있습니다. 따라서 측정을 수행하기 전에 사진을 편집해야 합니다. 위의 왼쪽 이미지에서 볼 수 있듯이 시스템은 먼저 사진의 조각을 선택하고 이를 똑바르게 한 다음 흑백 이미지로 만듭니다(컴퓨터가 신속하게 작업할 수 있도록).
직선은 어디에 있나요?
분석 단계 중 하나는 선의 방향을 결정하는 것입니다. 텍스트가 직선인지 아니면 약간 기울어져 있는지 그리고 어느 정도입니까? 이를 위해 시스템은 이미지의 직선을 결정하는 데 일반적으로 사용되는 기술인 이미지 허프 변환(Hough Transform)을 사용합니다.
허프 변환을 생성하려면 먼저 각 픽셀에 대해 어느 직선이 놓일 수 있는지 결정됩니다(아래 그림 참조).
가능한 선은 x*cos(t) + y*sin(t) =R, 공식으로 설명할 수 있습니다. 여기서 R 는 원점과 문제의 선 사이의 법선 길이이고 t 법선과 x축 사이의 각도입니다. 이를 바탕으로 R/t 목록을 만들 수 있습니다. 이미지 조합의 각 픽셀에 대해 각 조합은 점이 놓일 수 있는 특정 선을 나타냅니다. 해당 목록을 플롯하면(t x축과 R y축), 각 픽셀에 대해 연결할 수 있는 일련의 점을 얻습니다. 이미지의 각 픽셀에 대한 선이 있는 이 플롯을 허프 변환이라고 합니다.
Hough 변환은 사진의 직선을 매핑합니다. 플롯의 흰색 점은 특정 R/t에 맞춰 정렬되는 픽셀이 많다는 것을 나타냅니다. -콤비네이션. 즉, 해당 픽셀은 같은 선에 있습니다. 그리고 픽셀 수가 많기 때문에 아마도 사진에서도 선명하게 보이는 선일 것입니다.
오른쪽으로 읽기
Cairo Geniza의 사진에는 실제 직선이 포함되어 있지 않지만 선 위의 문자 픽셀은 항상 선 위에 있습니다. Hough 변환(아래 참조)에서 이를 볼 수 있습니다. 자세히 보면 -90° 및 +90°에 10개의 개별 선이 표시되기 때문입니다. 이는 시트에 수평으로 있는 10개의 텍스트 행에 해당합니다.피>
컴퓨터는 명확한 선이 보이는 위치를 계산할 수 있습니다. 그 이유는 t에 있기 때문입니다. 편차가 가장 큰 곳. 예를 들어 시스템은 텍스트 줄이 종이에 어떻게 표시되는지 결정합니다. 예를 들어 t에서 차이가 가장 높습니다. =45이면 텍스트가 45° 각도로 회전됩니다.
텍스트에서 숫자로
시스템은 프로젝션 프로필을 사용하므로 텍스트 방향이 중요합니다. 텍스트를 만듭니다. 그런 다음 열당 픽셀이 가로 및 세로로 함께 추가됩니다(아래 이미지 참조). 텍스트 회전에 주의하지 않고 이 프로필을 생성하면 결과가 올바르지 않게 됩니다.
프로필을 기반으로 시스템은 줄 수, 줄 간격, 줄 높이 등 텍스트의 다양한 특성을 측정합니다. 이는 이 문서의 시작 부분에 있는 다이어그램에 있는 "물리적 측정"입니다. 필기 분석을 위해 시스템은 키포인트도 감지합니다. 이미지의; 조각에서 더 눈에 띄는 점. 이를 위해 SIFT 기술을 사용합니다(상자 참조).
실제 측정 및 핵심 사항 정말 숫자에 지나지 않습니다. 따라서 원고 조각은 특징 벡터라고 불리는 일련의 값으로 변환됩니다. 컴퓨터는 사진보다 이 문제를 더 쉽게 처리할 수 있습니다.
교육
이제 원래 목표인 두 조각이 동일한 문서에 속하는지 확인하는 것으로 돌아갑니다. 이렇게 하려면 특징 벡터를 살펴보세요. 두 조각 중. 유사할수록 해당 텍스트가 하나의 문서에서 나올 가능성이 높아집니다. 그러면 글꼴 크기, 줄 간격 및/또는 키포인트가 거의 동일해집니다. 하지만 두 특성 벡터가 얼마나 유사한지 어떻게 알 수 있나요? 아니면 오히려 컴퓨터가 어떻게 알 수 있습니까? 사실 그것은 학습의 문제입니다.
시스템에는 특성 벡터와 같은 입력 개체를 사용하는 (수학적) 프로그램인 분류기가 있습니다. 어느 그룹에 속하는지 확인할 수 있습니다. 즉, 스크립트 조각이 있는 경우 분류자 어느 문서에 속해 있는지. 이를 위해 프로그램은 객체를 평가하는 방법을 알아야 합니다. 어떤 것이 그룹 A(문서 A)에 속하고 언제 속하지 않습니까? 분류자를 통해 이를 알 수 있습니다. 훈련 세트를 사용하여 함께 속해 있는 조각 모음입니다. 분류자 그 정보를 통해 한 그룹을 다른 그룹과 구별하는 것이 무엇인지 배웁니다. 예를 들어 아래 그림을 보면 꽃잎의 크기에 따라 어떤 종류의 붓꽃을 다루고 있는지 알 수 있다는 것을 알 수 있습니다.
새 쌍
연구원들은 잘 알려진 조인을 사용하여 Cairo Geniza의 훈련 세트를 만들었습니다.; 확실히 함께 속해 있는 조각 쌍입니다. 이는 분류자를 가르쳤습니다. 조인이 언제 있는지 평가합니다. 그런 다음 연구원들이 새로운 조각을 쌍으로 입력하면 분류자가 그들이 참여한다고 말하나요? 였습니다.
결과는 엇갈렸습니다. 한 학원을 모아서 테스트한 결과 80%가 맞았습니다. 그러나 다양한 컬렉션의 조각을 사용하여 테스트를 수행했는데, 이 경우 시스템이 특히 유용했습니다(그래서 연구원은 앞뒤로 이동할 필요가 없습니다). 9,000개의 조인이 가능한 시스템이 탄생했습니다. 그 중 상위 2,000개는 수동으로 검사되었습니다. 감지된 조인의 24%만 맞는 것으로 드러났습니다.
다소 실망스러운 결과에도 불구하고 이 연구에는 여전히 약 천 개의 새로운 조인이 있습니다. 배달되었습니다. 지금까지 발견한 수천 명의 전문가에 비하면 상당히 많은 숫자다. 그러나 시스템은 아직 수동 확인 없이는 작동할 수 없으며 그러기에는 인식 점수가 너무 낮습니다. 그러나 이는 좋은 추가 사항이자 올바른 방향으로 나아가는 단계입니다.