추천 게시물
AI 도입 지원을 위한 1000만원 이하 Voice & Text Gateway 개발, PoC 준비
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
작성자:
dckorea
-
어제는 개인적으로 중요한 날이다. AI를 깊게 하시는 분들이 보면 우스워보일 수도 있는 - 다들하는 "AI 머신"을 만들어 PoC(Proof of Concept)를 위해 업체 한 곳에 설치했다.
이 애의 이름은 "SmartStart AI"다. 기본 STT/TTS 머쉰이다. 이걸 만든 목적은 레거시 시스템을 건드리지않고, 낮은 비용으로 쉽게 AI를 해볼 수 있도록 도와주는 거다. 따라서 GPU는 젯슨 나노나 GPU 40XX 시리즈를 사용한다. 200만원대 하드웨어를 사용해 적정한 성능을 내는건데, 어제 설치한 것은 쿠팡에서 산 100만원이 조금 더 넘는 PC에 설치했다.
커뮤니케이션은 아날로그(옛날 집전화, PSTN)부터 인터콤, VoIP 이런 음성이 들어가는 장비들과 한다. 처음 만든 MVT(MVP)는 PC 내 마이크였다. 쉬운 예를 들면 ARS에서 특정번호를 누르면 "SmartStart AI"와 연결된다. 아니면 그냥 앱에서 Voice를 입력하면 보이스봇(챗봇)이 된다. 이 부분이 좀 어렵다. 유선통신은 너무 오래되고(100년전쯤?) 굳어진 기술이긴 한데, 신상(AI)과 어울리게 붙이는데 경험을 포함한 잔기술과 시간이 많이 들어간다. 세상에 음성이 입력되는 장비들을 생각해 보면 된다. 집안, 엘리베이터, 집밖 공동현관, 차량게이트 - 인터콤 계열, PSTN, VoIP, 핸드폰 - 전화 계열, 키오스크 같은 Stand Alone System들 ... 등등
뒤는 우리 영역이 아니다. 이걸 가져다놓은 회사의 개발자와 운영자가 Agent를 만들어쓴다. 어제 미팅을 하다보니 개발자는 API만 만들어주고, 운영(기획자)가 n8n을 사용해 고객상담 업무 중 일부를 자동화해보겠다고 한다. 우린 이 분과 함께 2-3가지 서비스 에이전트를 만들어 보기로 했다. 이 곳에서 우선 적용하고 싶어하는 서비스 수는 8가지 정도이다. 이젠 Agnet 정도는 기획/운영자의 몫이되어버린 세상이다.
이동하는데 전화가 다시 왔다. 챗봇도 만들 수 있냐해서 보이스봇해놓은 걸로 그냥하시면 된다고 했다. 이 회사는 API로 정보를 받아 LLM(챗GPT)에서 응답문장을 만드는 방식으로 사용한다. 어느정도 업무가 픽스가 되면 Langchain이나 Langgraph를 써서 s-LM이 바로 응답하는 걸로 바꿔도 된다. 이건 다시 개발자 몫이다. 기획/운영자가 쉽게 고객응대서비스를 바꿔보고, 마음에 들면 코딩하는거다. 이렇게 되면 개발자 일이 준게 아니고, 헛손질이 줄거같고, 기획/운영자 일이 느는데신 개발자 비위 맞추며 눈치보는 일이 줄것 같다. 밤 새 기획서를 안만들고 프로토 타입을 직접 만들 수도 있겠네!
당연한거지만 얘의 단점이라면 온라인 챗봇처럼 쓰려면 장비를 더 많이 준비해야 한다. 그땐 클라우드에 설치해서 사용하는게 났다. GPU4060를 사용해 동시에 6-7개 채널을 실시간으로 문자 전환을 할 수 있다. 좀 더 채널수를 늘려도 되지만 계속 그렇게하는 건 그렇다(하드웨어가 힘들어하니). 사실은 '값 싼' GPU로 Farm을 만들어쓰면 된다. (특정 용도에서는) 훨씬 경제적이고 전기세 같은, 발열 문제 같은 것을 피할 수 있다.
얘은 학습시키고 하는 용도가 아니다. 학습된 결과, 알고리즘을 활용하고, 양자화, 또는 증류화해 작은 용기('값 싼 GPU')에 잘 담아 적정환경에서 잘 활용하는게 목적이다.
얘은 학습시키고 하는 용도가 아니다. 학습된 결과, 알고리즘을 활용하고, 양자화, 또는 증류화해 작은 용기('값 싼 GPU')에 잘 담아 적정환경에서 잘 활용하는게 목적이다.
LLM에 정보를 올릴 때, SmartStart AI가 해주는 잇점/일 더 있다. ①하나는 Voice(음성)을 Text(문자)로 바꿔 토큰수 줄여준다. ②이때 개인정보와 관련된 모든 내용을 마스킹 처리(***처리)도 해준다. 이것(민감정보처리)도 local에서 개발 처리하려면 의외로 시간이 걸린다. 잔기술과 신구기술들의 조합이 필요하다. ③LLM을 쓰지않고 s-LM을 써서 바로 응답(RAG Agent를 써 FAQ 응답 같은 것)을 할 수도 있다. 그러다 못하겠으면 자동으로 LLM에 던져 응답을 만들거나, 사람에게 연결하면 된다.
오후 늦게 PoC 장비가 설치된 업체에 콜센터 ASP서비스하는 곳을 방문했다. IVR(Interactive Voice Response)과 SmartStart AI의 앞쪽 I/F를 위해서다. 고객이 ARS에서 특정번호를 누르면 이 얘가 있는 IP를 호출해주면 된다고 말하기 위해.
처음엔 본인들의 영역에 들어올지모를 외인들을 경계하는 눈치다. 그 회사도 Whisper와 RAG, small-LM을 써서 콜센터 업무지원을 한단다. 우리 이야기를 듣더니 걱정을 덜었나보다. 자기들도 필요할 때, 써도 좋을 것 같다고 한다. 얘는 실시간 처리용이니 WhisperLive를 쓴다. (Whisper를 녹음된 것을 파일 단위로 처리한다.)
SmartStart AI를 만들려는 것은 우리나라 중소기업의 대부분이 AI를 사용하지 않고, AI를 사용하려고 하면 약 1,000만원정도의 도입비용이 적정하다고 해서이다. 물론 매월 이용료를 내는 것, LLM을 쓰는 것도 부담스러워한다는게 조사결과이다.
그래서 1,000만원 아래에서 앞뒷 것을 그대로 놔두고 'AI 트랜스폼'을 해주는 장비, 온라인 연결을 지원을 하지만 그런 것 없이 '뭔가'를 할 수 있는 장비를 만드는 게 목표다. 전원만 꽂으면 AI Ready로 전환해 주는 ....
첫번째가 보이스 입력들이 있는 곳(서비스)들이 대상이다.
오랜만에 만보 넘게 걸었다. 이 동네 기술들이 너무 빨리 바뀌어 우린 잘안바뀌는 Legacy 환경에 적응을 선택했다. 그래서 추구하는 바는 적정기술이다. 더도 덜도 말고 그곳에 딱맞는! 잘 써먹을 수 있는! 살아남자는 이야기다.
그런 곳, 서식처를 찾다보니 몸이 피곤하다. 갈 길도 멀고 … 이제 PoC니 완제품은 언제 나올까!





댓글
댓글 쓰기