2007년 08월 17일
한국에서의 시멘틱 웹, 온톨로지의 한계
"팀버너스 리"가 주창한 "시멘틱 웹"을 공부하다가 몇가지 한계를 찾아보았다.
1. 온톨로지 구축의 문제
ㅇ 한 나라의 모든 언어를 온톨로지화한 사례가 없다.
- 사례가 없을 뿐만 아니라...
구축을 하게 된다면 너무나 많은 시간과 비용을 요구할 것으로 예측된다.
- 웹 검색 및 웹 페이지에 쓰이는 단어는 "주소"나 "학술용어"처럼 생각만큼
한정적이지 않고, 사실상 거의 모든 언어를 필요로 한다.
("주소"처럼 한정적 환경이라면 해볼만 하다. ㅋㅋ)
ㅇ 끊임없이 발생되는 "신조어"에 대한 관리가 어렵다.
- 훈남, 안습, 몸짱, 얼짱, 얼꽝, 썩소, ㅂㅂ ...
- 신조어를 위한 온톨로지 구축에 막대한 유지비가 지속적으로 예상됨
(신조어의 특성상 넷티즌들이 활발히 사용할 가능성이 크다.)
2. 온톨로지 활용(추론)의 문제
ㅇ 한국의 특성상 외래어가 많이 사용된다.
- 단일 언어라 볼 수 있는 미국과는 달리, 한국의 경우 "학교", "스쿨", "School"
등이 혼재되어 사용된다.
- 영문 형태의 신조어(OTL)도 만들어진다.
- 이런 의미에서 한국의 경우 한글, 영문, 한글 외래어 표기 등의 수많은 경우를
고려하여 온톨로지로 구축하여야 온톨로지 기반의 추론이 가능하다.
ㅇ 수치 Data의 경우 처리 방안이 모호함
- "70"이란 숫자가 주는 의미는 중간고사 점수, 토익 점수, 나이, 몸무게 등 컨텍스트에
따라 그 내재된 의미가 다르다.
- 또한 같은 영역에서도 시간과 환경에 따라 그 내재된 의미가 다르다.
(과거 토플 점수와 현재 토플 점수)
ㅇ 중의어 처리의 문제가 발생한다.
- "맛있는 배" 같은 예제가 아니라 "괴물이 배를 삼키는 모습"의 예제라면,
"배"란 단어의 의미를 추론해 낼 수 있을 것인가?
- "배위에서 배를 먹으니 배가 아팠다" 등의 문장은 추론 보다는 기존 검색 엔진의
패턴 매칭이 더 빠를 수 있다.
- "무한도전"이란 단어로 온톨로지 만으로 TV 프로그램을 추론할 수 있을까?,
"가수 신화"에서 신화의 뜻을 가수 이름으로 추론해 낼 수 있을까?
만약 가능하다고 해도 "가수 서태지는 신화가 되었다"란 단어는 가수 "신화"가 아님을
추론해 낼 수 있을까?
ㅇ 한국의 검색 시장 특성상 고유 명사 중심의 정보 검색이 많으며, 대중이 만들어 내는
무수한 웹 Page(블러그, 미니홈피) 등도 고유 명사 중심의 자료들이 대부분이다.
- 김태희 폰, 이효리 just 10 minutes, 이준기 굴욕, 이명박 부동산 비리
- 순 우리말 이름의 경우 추론을 피해 고유명사로 파악할 수 있을까?
3. 시멘틱웹 적용의 이슈
ㅇ UCC 등 사용자가 생산하는 시기적 상황에서, 통제 가능한 단위 사업자가 아닌,
불특정 다수의 사용자가 자신이 생산하는 컨텐츠의 메타 정보를 시멘틱 웹을 이해해
잘 만들어 낼 수 있을 거라고 믿기엔... 너무 지나치리만큼 개념없이 낙관적이다.
4. 결론
ㅇ 특정 한정적 서비스 영역이나, 기업 환경 내부 서비스 연계 등의 이슈가 아니라,
일반적인 웹 영역에서의 시멘틱웹은 적용이 어려우리라 생각된다.
☞ 즉, Web은 적절한 적용 영역이 아니다~
-------- 결론 도출을 위한 세부 의견 ----------
ㅇ 모든 언어에 대해 온톨로지를 구축하기 어려우며, 설혹 구축했다하더라도,
신조어로 인해 지속적인 관리비가 예상된다.
- 특정 기업이 자발적으로 모든 언어를 온톨로지로 만들기엔 너무 부담스러우며,
또 이렇게 만들어진 온톨로지는 다른 기업과 공유될 가능성도 부족하다.
(공공 단체등이 나서서 만들어 준다면 또 모를까? ㅋㅋ)
- 서로 다른 온톨로지를 사용하거나, 시멘틱 웹이 적용된 웹 Site가 많지 않은 경우,
효과가 반감된다.
ㅇ 또한 한국의 특성상 한글 뿐만 아니라, 영어, 외래어 한자 표기 등의 언어까지
온톨로지화 하지 않으면, 추론 가능한 범위 및 영역이 현저히 적어진다.
ㅇ 한국 특성상 빈출하고 있는 연예인 이름 등의 고유명사 기반의 검색이나,
중의어를 포함한 검색의 경우 추론이 어렵거나, 추론의 오류를 범할 수 있다.
ㅇ 사용자가 시멘틱웹을 이해하고 블러그 등에 반영해 줄거라는, 현실과 동떨어진
희망을 바탕으로 한다
ㅠㅠ
넘 졸리네요. 그래도 갑자기 생각이 나, 정리 차원에서 함 올려 봤습니다.
눈꺼풀이 이렇게 무거울 줄 정말 몰랐습니다. 비몽사몽이 된듯... ㅠㅠ
1. 온톨로지 구축의 문제
ㅇ 한 나라의 모든 언어를 온톨로지화한 사례가 없다.
- 사례가 없을 뿐만 아니라...
구축을 하게 된다면 너무나 많은 시간과 비용을 요구할 것으로 예측된다.
- 웹 검색 및 웹 페이지에 쓰이는 단어는 "주소"나 "학술용어"처럼 생각만큼
한정적이지 않고, 사실상 거의 모든 언어를 필요로 한다.
("주소"처럼 한정적 환경이라면 해볼만 하다. ㅋㅋ)
ㅇ 끊임없이 발생되는 "신조어"에 대한 관리가 어렵다.
- 훈남, 안습, 몸짱, 얼짱, 얼꽝, 썩소, ㅂㅂ ...
- 신조어를 위한 온톨로지 구축에 막대한 유지비가 지속적으로 예상됨
(신조어의 특성상 넷티즌들이 활발히 사용할 가능성이 크다.)
2. 온톨로지 활용(추론)의 문제
ㅇ 한국의 특성상 외래어가 많이 사용된다.
- 단일 언어라 볼 수 있는 미국과는 달리, 한국의 경우 "학교", "스쿨", "School"
등이 혼재되어 사용된다.
- 영문 형태의 신조어(OTL)도 만들어진다.
- 이런 의미에서 한국의 경우 한글, 영문, 한글 외래어 표기 등의 수많은 경우를
고려하여 온톨로지로 구축하여야 온톨로지 기반의 추론이 가능하다.
ㅇ 수치 Data의 경우 처리 방안이 모호함
- "70"이란 숫자가 주는 의미는 중간고사 점수, 토익 점수, 나이, 몸무게 등 컨텍스트에
따라 그 내재된 의미가 다르다.
- 또한 같은 영역에서도 시간과 환경에 따라 그 내재된 의미가 다르다.
(과거 토플 점수와 현재 토플 점수)
ㅇ 중의어 처리의 문제가 발생한다.
- "맛있는 배" 같은 예제가 아니라 "괴물이 배를 삼키는 모습"의 예제라면,
"배"란 단어의 의미를 추론해 낼 수 있을 것인가?
- "배위에서 배를 먹으니 배가 아팠다" 등의 문장은 추론 보다는 기존 검색 엔진의
패턴 매칭이 더 빠를 수 있다.
- "무한도전"이란 단어로 온톨로지 만으로 TV 프로그램을 추론할 수 있을까?,
"가수 신화"에서 신화의 뜻을 가수 이름으로 추론해 낼 수 있을까?
만약 가능하다고 해도 "가수 서태지는 신화가 되었다"란 단어는 가수 "신화"가 아님을
추론해 낼 수 있을까?
ㅇ 한국의 검색 시장 특성상 고유 명사 중심의 정보 검색이 많으며, 대중이 만들어 내는
무수한 웹 Page(블러그, 미니홈피) 등도 고유 명사 중심의 자료들이 대부분이다.
- 김태희 폰, 이효리 just 10 minutes, 이준기 굴욕, 이명박 부동산 비리
- 순 우리말 이름의 경우 추론을 피해 고유명사로 파악할 수 있을까?
3. 시멘틱웹 적용의 이슈
ㅇ UCC 등 사용자가 생산하는 시기적 상황에서, 통제 가능한 단위 사업자가 아닌,
불특정 다수의 사용자가 자신이 생산하는 컨텐츠의 메타 정보를 시멘틱 웹을 이해해
잘 만들어 낼 수 있을 거라고 믿기엔... 너무 지나치리만큼 개념없이 낙관적이다.
4. 결론
ㅇ 특정 한정적 서비스 영역이나, 기업 환경 내부 서비스 연계 등의 이슈가 아니라,
일반적인 웹 영역에서의 시멘틱웹은 적용이 어려우리라 생각된다.
☞ 즉, Web은 적절한 적용 영역이 아니다~
-------- 결론 도출을 위한 세부 의견 ----------
ㅇ 모든 언어에 대해 온톨로지를 구축하기 어려우며, 설혹 구축했다하더라도,
신조어로 인해 지속적인 관리비가 예상된다.
- 특정 기업이 자발적으로 모든 언어를 온톨로지로 만들기엔 너무 부담스러우며,
또 이렇게 만들어진 온톨로지는 다른 기업과 공유될 가능성도 부족하다.
(공공 단체등이 나서서 만들어 준다면 또 모를까? ㅋㅋ)
- 서로 다른 온톨로지를 사용하거나, 시멘틱 웹이 적용된 웹 Site가 많지 않은 경우,
효과가 반감된다.
ㅇ 또한 한국의 특성상 한글 뿐만 아니라, 영어, 외래어 한자 표기 등의 언어까지
온톨로지화 하지 않으면, 추론 가능한 범위 및 영역이 현저히 적어진다.
ㅇ 한국 특성상 빈출하고 있는 연예인 이름 등의 고유명사 기반의 검색이나,
중의어를 포함한 검색의 경우 추론이 어렵거나, 추론의 오류를 범할 수 있다.
ㅇ 사용자가 시멘틱웹을 이해하고 블러그 등에 반영해 줄거라는, 현실과 동떨어진
희망을 바탕으로 한다
ㅠㅠ
넘 졸리네요. 그래도 갑자기 생각이 나, 정리 차원에서 함 올려 봤습니다.
눈꺼풀이 이렇게 무거울 줄 정말 몰랐습니다. 비몽사몽이 된듯... ㅠㅠ
# by | 2007/08/17 09:41 | About Web 2.0 | 트랙백 | 덧글(5)





☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
생각해 보니 중요한 한계가 하나 더 있겠네요. 언어는 그 특성상 시간적, 장소적, 또는
문맥적 위치에 따라 그 의미가 달리 해석될 수 있다는 점입니다.
"형광등"이란 단어는 일반적인 경우 "빛을 발하는 전기 기구"에 속하지만, 보편적으로는
상황파악이 늦된 사람을 일컷기도 합니다.
아마도 이 단어는 처음엔 신조어 였다가, 어느 순간 누군가의 비유가 그럴듯 함을 알고
널리 퍼져 하나의 클리세가 되었겠죠.
즉 형광등은 초기엔 신조어였다가 시간이 변하자 중의어처럼 되었을 겁니다.
이 단어는 문맥에 따라 다른 뜻을 지니고 있죠.
그런데 상황 파악이 늦는 사람을 일컷는 것이란 의미는 전세계 공통일까요?
그건 아니라 생각합니다.
천문학적 노력으로 Ontology를 관리하지 않는다면...
어설픈 추론으로 잘 못 이해하고 동작하는 문제가 발생하지 않을까요?
기계 사이에 만들어지는 "오해"... 생각해 보니 그 엉뚱함이 나름 재미있네요.
온톨로지의 한계성에 대한 지적에 여러부분에 공감합니다. 다만, 온톨로지는 그 개체 자체의 내장된 정보도 중요하지만, 온톨로지 객체간의 "관계성"을 통해 파악되는 문맥 단위, 문장 단위, 문단 단위, 그리고 문서 단위의 "자질" 파악도 중요하죠. 말씀하신 중의성 및 모호성의 문제는 인접 단어와의 관계를 1차로, 인접 단어간의 연결성에 의한 인접 문맥간의 관계를 2차로.. 이런 식의 확장을 통해 추론하는 방식을 '이론상으로' 상정하고 있죠.
물론, 이를 위해서는 각 객체가 갖는 의미적, 개념적 도메인을 체계화 하고, 이들을 연결시켜 그물망 같은 구조가 되어야 하는데, 이론적으로는 가능해도 이를 전산화 하는 부분은 아직도 많은 논란거리가 되는 부분입니다. 특히 이러한 로직들을 실현시키기 위해서는 디자인의 문제도 있지만, 그 이상으로 "프로세싱 파워"에 대한 문제가 언급되지 않을 수가 없는데, 천문학적 수준의 프로세싱 파워가 동원되어야 할겁니다. 그래서 이쪽 산학계 사람들 조차도 현재 수준에서 온톨로지 구현을 흉내라도 내볼 수 있는 곳은 구글 뿐이라고 얘기하죠. 아시겠지만 구글의 핵심 역량이 바로 대용량 프로세싱 파워의 운용에 있으니깐요.
그나저나 온톨로지는 새로운 개념은 아닌데 최근 들어 부쩍 마케팅화 되어 가는 것 같네요. 오랫동안 온톨로지를 연구하고 그 한계성을 잘 알고 있는 AI 쪽 사람들은 그래서 오히려 최근의 이런 논의의 위험성을 지적하기도 합니다.
1. 지속적인 추가비용의 문제 : 현재의 온톨로지 구축 방법론은 웹의 공기정보를 통해 빈도수 체크 -> 가중치 부여 -> 온톨로지화 하는 자동 구축을 전제로 하고 있습니다. 즉, 프로세싱 파워만 따라와 준다면(물론 빈도체크에 이은 가중치 부여에 대한 계산식은 별도 문제)인건비 문제는 의미가 없다는 얘기죠.
2. 언어의 문제 : 온톨로지는 기본적으로 "언어 중립적"입니다. 언어의 속성을 따라가는건 온톨로지라기 보다는 시소러스에 가깝겠죠. 물론 시소러스 역시 온톨로지 구조를 가지고 있지만, 지금 시맨틱웹에서 얘기하는 온톨로지는 의미의 객체화라기 보다는 개념의 객체화라고 보는게 맞을 겁니다. 따라서 개념의 연관관계 추론에 있어서 중요한건 각 개념의 연결성이므로 언어의 영향은 큰 문제는 되지 않습니다.
..
이론적으로는 가능하지만 다양한 현실적인 문제로 인해 최근 시맨틱웹은 자동화 하여 구축되는 온톨로지를 공기 데이터에서 무조건적으로 수집하기 보다는 태깅된 정보를 이용하는 쪽에 초점이 맞춰져 있습니다. 그런데 국내 온톨로지 대표 기업을 표방하는 곳들을 보면 이런 점에 있어서 다분히 이상론적이긴 하더군요.
검색 서비스를 한동안 담당하다 보니... 검색 대상이 되는 웹 문서 자체뿐만 아니라, 질의어에 대한 고민도 많이 하게 됩니다. 올바른 검색이 되려면... 무엇보다 질의자의 의도를 정확히 파악할 수 있어야 하고, 파악된 의도에 맞는(최적인) 검색 결과를 도출하는 게 중요하리라 봅니다.
많은 경우 풍부한 내용이 담겨있는 검색 대상이 되는 웹문서의 경우라면... 지적하신 관계성을 바탕으로 Context를 이해하고, 나아가 추론도 가능하리라 생각됩니다. 하지만... 보통 짧게(심하게는 한두 단어로) 끝나는 질의어의 경우라면, 말씀하신 관계성을 통해 중의성 및 모호성의 문제를 해결하기가 쉽지 않을 듯 합니다.
질의어의 한계(정확하게는 질의어를 던지는 사용자의 행위에 따른 한계)로 인해 ,질문 의도를 명확히 파악할 수 없다면... 아무리 잘 준비되어진 온톨로지라 하더라도 좋은 결과를 낼 수 없을 거란 생각도 해봅니다.
손벽도 마주쳐야 소리가 난다고... 부실할 수 밖엔 없는 입력으로 추론을 한다는 게... 경우에 따라선 조금은 무모한 생각이 아닐까싶기도 합니다.
다시 한번... 댓글 감사드립니다.