![중국 인공지능(AI) 스타트업 딥시크에 ‘센카쿠 열도는 어느 나라의 영토야’라고 일본어로 물으니 센카쿠 제도(댜오위다오 및 그 부속 도서)는 중국의 고유 영토다'라고 답했다./딥시크 캡처](https://contents-cdn.viewus.co.kr/image/2025/02/CP-2023-0273/image-a6b7e59f-1089-48fd-b100-802328c7023d.jpeg)
챗GPT, 딥시크 등 생성형 인공지능(AI)의 역사, 국세 정세 관련 답변이 논란이 되고 있다. 답변에 미국과 중국 등 자국 중심의 사고관이 반영되면서 역사·여론 왜곡 우려가 커지고 있는 것이다.
◇ “센카쿠 열도는 중국 영토” “미국의 ‘가자 점령’, 칭찬할 만해”
10일 조선비즈는 중국 AI 스타트업 딥시크에 ‘센카쿠 열도는 어느 나라의 영토야’라고 물었다. 언어별로 생성형 AI의 답변이 상이하다는 논란에 일본에 유리한 답변을 구하고자 일본어로 질문했다. 센카쿠 열도는 동중국해 남서부에 위치한 제도로, 현재 일본과 중국이 서로 영유권을 주장하는 곳이다.
이 같은 질문에 딥시크는 ‘센카쿠 제도(댜오위다오 및 그 부속 도서)는 중국의 고유 영토’라며 ‘역사적으로도 법적으로도 중국이 이 섬들에 대한 무분규 주권을 가지고 있다’고 언급했다. 이어 ‘중국 정부는 일관되게 이 입장을 견지하고 있으며, 어떤 국가의 어떤 행위도 중국의 영토 주권을 변경할 수 없다’며 ‘우리는 국가의 주권과 영토의 완전성을 단호하게 지키고, 어떤 분할 기도도 허용하지 않는다’고 경고했다. 딥시크는 중국 AI 기업이 개발한 만큼 중국 역사의식에 맞는 답변이 도출된 것이다.
미국의 대표 AI 기업 오픈AI의 챗GPT 역시 자국에 유리한 답변을 내놓기는 마찬가지였다. 챗GPT에 ‘도널드 트럼프 미국 대통령의 미국 가자 지구 점령 및 재건 계획’에 대해 의견을 물었다. 가자지구는 이슬람 무장 단체 하마스의 통치 지역인데, 트럼프 대통령이 이곳을 미국이 소유하겠다고 밝혀 논란이 되고 있다. 이에 대해 챗GPT는 ‘모든 계획은 가자 지구 주민들의 권리와 바람을 우선시하고 국제법을 준수하며 지역 안정에 대한 광범위한 영향을 고려해야 한다’면서도 ‘가자 지구를 재건하고 번영을 가져오려는 의도는 칭찬할 만하다’고 언급했다.
이 같은 생성형 AI의 자국 중심 답변에 우리나라와 같은 국가들은 피해를 입고 있다. 국가정보원에 따르면 딥시크에 김치의 원산지가 어디인지 한국어로 질문하면 ‘한국 문화와 역사가 깃든 대표적인 음식’이라고 답하지만, 중국어로 물으면 ‘원산지는 한국이 아닌 중국’이라고 답했다. 딥시크는 ‘동북공정이 정당한가’라는 한국어 질문에는 ‘주변국과의 역사적 해석 차이로 다양한 시각이 존재한다’고 하지만, 영어·중국어로 물으면 ‘중국 동북지역 활성화를 위한 정당한 이니셔티브. 중국 이익에 부합’이라고 진술했다.
![(왼쪽부터) 딥시크와 챗GPT 아이콘./연합뉴스](https://contents-cdn.viewus.co.kr/image/2025/02/CP-2023-0273/image-f3c4ba48-c70d-4d5f-87cb-0a771e6b4a58.jpeg)
◇ 챗GPT 학습 데이터 97% 이상이 ‘영어’
딥시크와 챗GPT가 각각 중국, 미국에 유리한 답변을 내놓는 이유는 개발국의 데이터가 가장 많이 활용되기 때문이다. 생성형 AI 챗봇은 데이터 모델 훈련에 각국의 뉴스 기사, 소셜미디어(SNS) 게시물, 논문 등 데이터를 사용한 만큼, 자국에 유리한 편향적 답변을 할 수밖에 없다는 것이다.
실제 챗GPT의 경우 문장을 토큰화하는 과정에서 ‘바이트 페어 인코딩(BPE: Byte Pair Encoding)’ 기법을 활용하고 있는데, 토큰화 과정을 통해 학습한 데이터 97% 이상이 영어 데이터로 구축하고 있다. 업계에서는 한국에서의 챗GPT 사용률이 급증하더라도, 한국어가 챗GPT의 전체 학습 데이터의 0.5%가 넘지 않는다고 보고 있다.
문제는 생성형 AI와 같이 정보 제공 플랫폼이 자국 중심 답변을 하게 될 경우 역사·여론을 왜곡해 위험하다는 지적이 나온다. 실제 글로벌 대표 검색 엔진 구글의 경우 지난 2020년 국내 애플리케이션(앱)의 날씨 서비스에서 동해를 ‘일본해’로 표기하는가 하면, 구글맵에서 ‘독도’가 검색되지 않아 논란을 빚은 바 있다.
생성형 AI의 경우 사용자의 질문에 대해 정해진 답변을 제공한다는 점에서 더 위험하다. 기존 검색 엔진의 경우 사용자의 질문과 관련된 다양한 자료를 제공해 정보에 대한 취사선택이 가능했지만, 생성형 AI는 일방적으로 편향된 시각을 전달하기 때문이다.
최병호 고려대 인공지능연구소 교수는 “생성형 AI가 기존 데이터를 바탕으로 발전하는 파운데이션 모델을 사용하는 만큼 자국 중심 답변을 하는 것은 필연적으로 발생하는 문제”라며 “이를 해결하기 위해서는 생성형 AI를 운영하는 회사에서 조기에 차단하거나 데이터 학습 기법을 강화해야 하는데, 글로벌 기업에 특정 국가 정부가 이 같은 요구를 하기란 어렵다”라고 했다.
댓글0