본문 바로가기

2. Development/메타휴먼 프로젝트

11. 프로토타입 0.0.1 아키텍처 설계, 개발 및 평가

시스템 아키텍처

프로토타입의 첫 버전을 설계하는데 있어 최소 스펙을 갖추었다고 판단했다.

앞으로 계속 기능을 붙이며 조금씩 업데이트 해 나갈 예정이다.

System Architecture

시스템 아키텍처는 다음과 같다. 

대화 데이터들을 embedding하여 관련정보를 query할 수 있도록 하여, 일반적인 Retrieval 구조가 완성되었다.

 

개발은 한국어버전 일본어 버전으로 2개 만들었으며 최대한 간단하게 구성하려고 했다.

반응은 전화하는것 정도의 빠른 반응까지는 얻어내기 힘들었지만, 나름 대화가 된다고 느낄수 있는 속도였다.

 

Test (한국어)

Test (일본어)

테스트케이스를 따로 정리하지는 않았다.

 

한국어와 일본어 버전을 나눈 이유는 한국어성능에서의 약간의 부족함을 느껴서이다.

1. 우선 한국어의 느낌이 잘 안사는것 같은 느낌이 들었다. 듣는 내가 한국인이어서 그럴수도 있을것 같다. 친구같은 느낌의 대화를 바라지만 너무 공손하고 예의 차리고 딱딱한 대화라고 느껴짐이 있었다. ChatGPT의 학습적인 문제라고 생각한다.

2. 현재 ASR이 ?나 .이나 !를 안붙여준다. 다른걸 찾아봐야겠지만 한국어의 경우 똑같은 말이어도 !?. 에 따라서 의미가 많이 달라지기도 하고 억양에 따라 의미가 달라지는 경우도 많다. 그런부분을 잘 캐치하지 못하게 되는 걸 느꼈다. 반면 일본어는 문장기호가 한국어보다 중요도가 좀 떨어진다. 그런면에서 더 괜찮은 것 같았다.

3. 한국어 TTS가 어색하다. 사실 한국어는 다양하지는 않지만 그럭저럭 괜찮은 모델을 찾기도 했었다. 영어 TTS가 좀 생각했던 것 보다 많이 별로라고 느꼈고, 일본어는 몇몇 되게 괜찮은 모델들이 있었다.

 

Conclusion

사실 필자가 일본어와 영어 둘다 초급 수준으로 하기에 비교적 어색함을 덜 느꼈을 수 도 있을 거라고 생각이 들었다.

그래서 실제 일본인, 혹은 모국어가 영어인 사람한테도 기회가 된다면 한번 시켜보겠다.