추천 게시물

AI 도입 지원을 위한 1000만원 이하 Voice & Text Gateway 개발, PoC 준비

어제는 개인적으로 중요한 날이다. AI를 깊게 하시는 분들이 보면 우스워보일 수도 있는 - 다들하는 "AI 머신"을 만들어 PoC(Proof of Concept)를 위해 업체 한 곳에 설치했다.

이 애의 이름은 "SmartStart AI"다. 기본 STT/TTS 머쉰이다. 이걸 만든 목적은 레거시 시스템을 건드리지않고, 낮은 비용으로 쉽게 AI를 해볼 수 있도록 도와주는 거다. 따라서 GPU는 젯슨 나노나 GPU 40XX 시리즈를 사용한다. 200만원대 하드웨어를 사용해 적정한 성능을 내는건데, 어제 설치한 것은 쿠팡에서 산 100만원이 조금 더 넘는 PC에 설치했다.

기존 시스템을 안건드리고(건드려도 최소한으로만), AI를 적용해 보고, 확장할 수 있게 하려다 보니 앞뒤로 인터페이를 할 Gateway들이 붙어있다. 앞에는 Communication G/W가 있고, 뒤에서는 Agent Ochestration G/W가 있어 텍스트화된 발화 의도를 파악해 적정한 AI Agent에게 업무를 할당해준다.
커뮤니케이션은 아날로그(옛날 집전화, PSTN)부터 인터콤, VoIP 이런 음성이 들어가는 장비들과 한다. 처음 만든 MVT(MVP)는 PC 내 마이크였다. 쉬운 예를 들면 ARS에서 특정번호를 누르면 "SmartStart AI"와 연결된다. 아니면 그냥 앱에서 Voice를 입력하면 보이스봇(챗봇)이 된다. 이 부분이 좀 어렵다. 유선통신은 너무 오래되고(100년전쯤?) 굳어진 기술이긴 한데, 신상(AI)과 어울리게 붙이는데 경험을 포함한 잔기술과 시간이 많이 들어간다. 세상에 음성이 입력되는 장비들을 생각해 보면 된다. 집안, 엘리베이터, 집밖 공동현관, 차량게이트 - 인터콤 계열, PSTN, VoIP, 핸드폰 - 전화 계열, 키오스크 같은 Stand Alone System들 ... 등등

Communication G/W는 결국 오픈소스 교환기를 가져다 이런 저런 장비들하고 인터페이스를 맞춰, 입출력 테스트까지 한거다.

뒤는 우리 영역이 아니다. 이걸 가져다놓은 회사의 개발자와 운영자가 Agent를 만들어쓴다. 어제 미팅을 하다보니 개발자는 API만 만들어주고, 운영(기획자)가 n8n을 사용해 고객상담 업무 중 일부를 자동화해보겠다고 한다. 우린 이 분과 함께 2-3가지 서비스 에이전트를 만들어 보기로 했다. 이 곳에서 우선 적용하고 싶어하는 서비스 수는 8가지 정도이다. 이젠 Agnet 정도는 기획/운영자의 몫이되어버린 세상이다.

이동하는데 전화가 다시 왔다. 챗봇도 만들 수 있냐해서 보이스봇해놓은 걸로 그냥하시면 된다고 했다. 이 회사는 API로 정보를 받아 LLM(챗GPT)에서 응답문장을 만드는 방식으로 사용한다. 어느정도 업무가 픽스가 되면 Langchain이나 Langgraph를 써서 s-LM이 바로 응답하는 걸로 바꿔도 된다. 이건 다시 개발자 몫이다. 기획/운영자가 쉽게 고객응대서비스를 바꿔보고, 마음에 들면 코딩하는거다. 이렇게 되면 개발자 일이 준게 아니고, 헛손질이 줄거같고, 기획/운영자 일이 느는데신 개발자 비위 맞추며 눈치보는 일이 줄것 같다. 밤 새 기획서를 안만들고 프로토 타입을 직접 만들 수도 있겠네!

당연한거지만 얘의 단점이라면 온라인 챗봇처럼 쓰려면 장비를 더 많이 준비해야 한다. 그땐 클라우드에 설치해서 사용하는게 났다. GPU4060를 사용해 동시에 6-7개 채널을 실시간으로 문자 전환을 할 수 있다. 좀 더 채널수를 늘려도 되지만 계속 그렇게하는 건 그렇다(하드웨어가 힘들어하니). 사실은 '값 싼' GPU로 Farm을 만들어쓰면 된다. (특정 용도에서는) 훨씬 경제적이고 전기세 같은, 발열 문제 같은 것을 피할 수 있다.

얘은 학습시키고 하는 용도가 아니다. 학습된 결과, 알고리즘을 활용하고, 양자화, 또는 증류화해 작은 용기('값 싼 GPU')에 잘 담아 적정환경에서 잘 활용하는게 목적이다.

LLM에 정보를 올릴 때, SmartStart AI가 해주는 잇점/일 더 있다. ①하나는 Voice(음성)을 Text(문자)로 바꿔 토큰수 줄여준다. ②이때 개인정보와 관련된 모든 내용을 마스킹 처리(***처리)도 해준다. 이것(민감정보처리)도 local에서 개발 처리하려면 의외로 시간이 걸린다. 잔기술과 신구기술들의 조합이 필요하다. ③LLM을 쓰지않고 s-LM을 써서 바로 응답(RAG Agent를 써 FAQ 응답 같은 것)을 할 수도 있다. 그러다 못하겠으면 자동으로 LLM에 던져 응답을 만들거나, 사람에게 연결하면 된다.

오후 늦게 PoC 장비가 설치된 업체에 콜센터 ASP서비스하는 곳을 방문했다. IVR(Interactive Voice Response)과 SmartStart AI의 앞쪽 I/F를 위해서다. 고객이 ARS에서 특정번호를 누르면 이 얘가 있는 IP를 호출해주면 된다고 말하기 위해.

처음엔 본인들의 영역에 들어올지모를 외인들을 경계하는 눈치다. 그 회사도 Whisper와 RAG, small-LM을 써서 콜센터 업무지원을 한단다. 우리 이야기를 듣더니 걱정을 덜었나보다. 자기들도 필요할 때, 써도 좋을 것 같다고 한다. 얘는 실시간 처리용이니 WhisperLive를 쓴다. (Whisper를 녹음된 것을 파일 단위로 처리한다.)

SmartStart AI를 만들려는 것은 우리나라 중소기업의 대부분이 AI를 사용하지 않고, AI를 사용하려고 하면 약 1,000만원정도의 도입비용이 적정하다고 해서이다. 물론 매월 이용료를 내는 것, LLM을 쓰는 것도 부담스러워한다는게 조사결과이다.

그래서 1,000만원 아래에서 앞뒷 것을 그대로 놔두고 'AI 트랜스폼'을 해주는 장비, 온라인 연결을 지원을 하지만 그런 것 없이 '뭔가'를 할 수 있는 장비를 만드는 게 목표다. 전원만 꽂으면 AI Ready로 전환해 주는 ....

첫번째가 보이스 입력들이 있는 곳(서비스)들이 대상이다.

오랜만에 만보 넘게 걸었다. 이 동네 기술들이 너무 빨리 바뀌어 우린 잘안바뀌는 Legacy 환경에 적응을 선택했다. 그래서 추구하는 바는 적정기술이다. 더도 덜도 말고 그곳에 딱맞는! 잘 써먹을 수 있는! 살아남자는 이야기다.

그런 곳, 서식처를 찾다보니 몸이 피곤하다. 갈 길도 멀고 … 이제 PoC니 완제품은 언제 나올까!

댓글