문득 음성인식기술에 관심이 가더군요( feat. 직업병)
공부하기싫어 뒤적거리다가 네비게이션의 음성인식기술에 관한 뉴스를 보게되었습니다.
뉴스를 보다가 문득 PTE 음성인식기술은 어떤식으로 만들었을까 라는 의문이 생기더군요
예전에 제가알던 음성방식은 사람이 기계에 맞추는 방식이었죠
안드로이드 도 약간 관심이있어서 공부하던중에 TTS(Text to speach)에 조금 흥미가 있어서 그쪽을 중점으로 공부했었습니다.
음성인식기술은 그때당시 많은 계발이 이뤄지지 않았던 분야였거든요
2013년 자료입니다
(
http://kmjournal.bada.cc/wp-content/uploads/2013/05/4-2-9Inm.pdf)
인공지능을 언급하더군요?
아이들에게 영어를 가르치기위해 인공지능을?
그래서 더 찾아봤죠
구글에 PTE 음성인식 기술 이라고 검색하면 많이나오더군요(엉문은 읽는데 오래걸리므로 그리고 지금 배가고프므로 패스)
· 자동 음성 인식 (Automatic Speech Recognition)
· 통계적 모형 (Statistical Models)
· 머신 러닝 (Machine Learning)
· 심리측정 방법 (Psychometric Measurement)
· 잠재 의미 분석 (Latent Semantic Analysis)
위의것들이 많이 보이더군요
그러고 보니 문득 궁금했던게 영어시험에서 내 출신국가가 왜 중요할까?
단순히 통계내는데 필요해서그러나?라고 단순하게 생각했던 제가 한심스러웠.....
아무튼 모르시는 분들도 계실거라 생각해서 올립니다.
PTE 무서운 시험입니다.
빅데이터와 인공지능이 만나면 과연 나중에 어떤일이 발생할까요?
예전에는 자주없던 speaking 0점이 요즘들어 자주보인다는것은(검색해봤는데 예전에도 0점 많았나요? 많았다면 걍 뇌피셜로....)
나라마다 고유의 발음과 특성 특징 발성방법 이런 데이터들이 꾸준히 싸이고 인공지능이 더욱더 잘 구분하게 된다는건데...
지금도 데이터는 계속 전세계 대상으로 싸여가고있지요
점점 공상과학영화들이 현실화 되어가는걸 볼때마다 소름돋네요
기계들과 전쟁할날이 얼마남지 않은거같아요 <- 이건 저의 음모론
뭔가 아시는거 있으시면 답글 부탁드릴게요
더 파보고싶으나 배가고파서....
대략 그나마 이 테스트에 대해 제가 알고 있는 (추측하고 있는 부분) 은 일단 자아소개 파트인데, 시험엔 채점이 되지 않으나 시험 시작할때 진행하게 되죠? 이는 음성인식에서 목소리 튜닝 파트라고 여겨집니다. 대략 성별이나 목소리 피치 범위 등을 잡아냅니다. 이런 방식으로 최대한 그 범위에 들어오지 않는 목소리는 잡음처리로 걸러내는게 아닌가 하는 추측입니다. 하기에, 자아소개 파트에선 최대한 시험에 사용될 목소리나 톤, 스피드, 호흡을 가지고 녹음하는걸 추천합니다.
또한 나라를 선택하게 하는건 10/10 이 나오는 현상을 줄이기 위함이란 관계자의 말을 들은적 있습니다. 대표적인 예로는 인도인들의 시험성적에서 반영되는데, 우리가 아시다시피 인도분들 특유의 액센트나 억양이 있잖아요. 하지만 피티이 성적에 발음점수가 70+ 으로 나오는 경우가 아주 흔했습니다. 이는 빅데이터로 이분들의 발음 습관을 대조하여 액센트에 대한 감점을 줄여주는것으로 보입니다. 하지만 한국어처럼 데이터가 많지 않는 경우엔 적용되는것 같지 않습니다.
발음인식이 잘 되지 않을 경우엔 유창성도 떨어진다는 경우가 많았고 다시한번 피티이는 앞뒤 단어에서 나타나는 연음현상, 인토네이션을 중요하게 여기는 마킹시스템을 갖고 있다는걸 느끼게 됩니다. 그러므로 10/10 이 나왔을땐 무조건 발음교정부터 하고 그다음 연음현상에 대한 지식을 공고히 해주고 유창성 연습을 나중에 하는것이 좋을것으로 보입니다.
근데 최근에 제 주변에 영어를 절대 못하는게 아닌데 10/10 나오는 경우가 꽤 있어서 좀 심한게 아닌가...싶을때도 있는데 반대로 생각해보면 아이엘츠가 스피킹 점수를 6까지는 후하게 주는게 아닌가 싶기도 하고 요새 엄청 혼란스럽네요 근데 10/10 받는 분들 보면 패턴은 비슷한거 같아요
그래서 집에서 사용하는 언어 선택을 아무거나 하면 안된다고 ㅎㅎ
그리고 종종 난이도 조정을 위해서 다른 시험의 기준으로 이 시험을 본 사람을 비교해서 조정을 한다고 들었고요.
아마도 머신러닝으로 진화하고 있지 않을까? 생각해 봅니다. 최근 10점 나오는 문제는 그 과정에 일부 문제가 된게 아닐까요?
(요건 흔한 공돌이의 상상입니다 ㅎㅎ)