LY Corporation Tech Blog

LY Corporation과 LY Corporation Group(LINE Plus, LINE Taiwan and LINE Vietnam)의 기술과 개발 문화를 알립니다.

This post is also available in the following languages. English

미래의 클라우드를 창조하다

들어가며

안녕하세요. 개발 서비스용 프라이빗 클라우드를 담당하고 있는 Cloud Service CBU 박영희입니다.

LY Corporation은 서비스 개발에 필요한 인프라와 플랫폼을 제공하기 위한 프라이빗 클라우드를 내부에서 구축해 사용하고 있으며, LY Corporation으로 합병 전에 Yahoo! JAPAN과 LINE에서 사용하던 클라우드 서비스를 하나로 통합하고 있습니다. 새로운 통합 프라이빗 클라우드의 이름은 'Flava'입니다.

image

이 글에서는 클라우드 산업 전체가 어떻게 진화할지 말씀드린다기보다는 LY Corporation의 Flava가 어떠한 모습으로 진화할지 두 가지 측면에서 말씀드리고자 합니다.

Flava의 미래 1: 플라바이제이션(Flavaization), 사용 가능한 보안(usable security), 사용자 데이터 스토리지

먼저 클라우드 본연의 측면에서 더욱 강력한 서비스로 진화하기 위한 세 가지를 살펴보곘습니다. 

image
AI로 생성한 이미지입니다.

개발자 경험을 향상하기 위한 플랫폼 플라바이제이션

Flava는 상품 구성 측면에서 살펴보면 인프라와 DB, 컨테이너 중심으로 구성돼 있습니다. 그 외 서비스 개발에 필요한 상품이나 서비스는 현재 사내에서 여러 개발 플랫폼으로 나뉘어 운영 및 제공되고 있는데요. 이와 같은 여러 플랫폼들이 현재 하나의 통합된 클라우드 UX를 제공하고 있지는 않기에 서비스를 개발하는 개발자 관점에서는 각 플랫폼별 권한 관리와 로깅·모니터링, 미터링·빌링, API 및 CLI, UI, 승인, 멀티 리전/AZ(availability zone) 등의 기능을 모두 이해하고 사용법을 익혀야 합니다.

이런 점을 고려해 Flava에서 가까운 미래에 우선적으로 해야 할 일은 서비스 개발에 필요한 모든 플랫폼을 클라우드 형태로 서비스 개발자에게 제공하는 것이라고 보고 있습니다. 저희는 이 작업을 플랫폼의 '플라바이제이션(Flavaization)'이라고 부르고 있는데요. 최근 Flava에 대한 사내 여러 부서의 인식이 높아지면서 플라바이제이션하고자 하는 움직임이 많아지고 있습니다. 이를 볼 때 향후 1~2년 내에는 플라바이제이션을 완수할 수 있지 않을까 기대하고 있습니다.

image
AI로 생성한 이미지입니다.

강력하면서도 사용성 높은 보안 구축

일반 퍼블릭 클라우드와 비교해 Flava의 강점이라고 할 수 있는 것 중 하나가 사내 보안 거버넌스를 준수하고 이를 기술적으로 구현했다는 것입니다.

Flava는 아키텍처 설계 및 상품의 기획 단계에서부터 CISO(chief information security officer) 부서와 협의하고 있고, 모든 상품이 사내 보안 평가를 거치고 있습니다. 데이터의 보안 등급에 따라 제공하는 클라우드 리소스 환경을 기본(default), 기밀(secret), 최고 기밀(top secret)로 분리해 각 등급의 데이터를 별도로 저장 및 처리하고 있으며, 클라우드에서 각종 변경 작업을 진행할 수 있는 권한을 나눠 놓았고, 권한이 있다고 하더라도 중요한 변경 작업은 조직 내 보고 및 전문 조직의 리뷰와 승인을 받아야만 진행할 수 있는 승인 프로세스를 갖춰 놓았습니다.

반면 퍼블릭 클라우드는 이와 같은 사내 보안 거버넌스를 클라우드 차원에서 제공하지 않습니다. 따라서 퍼블릭 클라우드를 사용하려면 개발 부서에서 CISO 부서와 상담을 받아야 하고, 별도로 승인 프로세스도 만들어야 합니다.

물론 개선해야 할 부분도 남아 있습니다. 개발 완료 후 Flava에 통합된 여러 보안 거버넌스 기능을 사용자 입장에서 테스트해 보면 사용 편의성 측면에서 조금 더 최적화해야 할 것들이 적지 않습니다.

예를 들어 과거에는 보안(secure) 환경을 물리적으로 구축했기 때문에 환경 구성에 1~2개월이 걸렸지만, 현재 Flava 보안 환경에서는 수분 이내로 리소스를 생성할 수 있는데요. 이렇게 생성된 서버에 접근하기 위해서 VDI 계정 생성, 데이터 교환을 위한 Box 폴더 생성 등 약 10개의 워크플로를 거쳐야 하기 때문에 이 모든 승인 과정에 다시 2개월이 소요되고 있습니다.

또 하나의 예를 들자면, VPC(virtual private cloud)에서 ACL(access control list)을 이용한 접근 권한 통제가 강화되면서 데이터 통신의 지연 시간이 수 ms 늘어났습니다. 이는 보통의 애플리케이션에서는 문제될 수준이 아니겠지만 LINE 메신저 메시징과 같이 빠른 네트워크 응답 시간이 요구되는 애플리케이션에서는 문제가 될 수 있으므로, VPC ACL의 처리 속도 개선도 요구되고 있습니다.

보안이 강력하기만 하고 사용성이 떨어진다면 사용자에게 외면 받는 것은 당연한 결과입니다. 강력하면서도 사용성 높은 보안을 갖추는 것이 사용 가능한 보안이라는 관점에서 Flava의 다음 과제라고 할 수 있겠습니다.

폭증하는 멀티미디어 데이터를 효율적으로 저장할 스토리지 및 관련 기술 확보

모바일 시대에 나타난 사용자의 패턴 변화 중 하나는 각 사용자가 수많은 멀티미디어 데이터를 생산해 내고 있다는 것입니다. 모바일 기기로 사진과 동영상을 찍는 것이 일상적인 일이 되면서 어느새 제 LINE 앱에도 수많은 앨범이 생성되고 각 앨범당 수천 장이 넘는 사진이 저장돼 있습니다.

이렇게 저장된 데이터는 특별한 경우가 아니라면 대부분 그렇게 저장된 채로 남겨져 있습니다. 즉 서비스 트래픽이 늘지 않더라도 보관해야 하는 사용자의 멀티미디어 데이터는 계속 증가하게 됩니다. 이러한 데이터를 서비스 측면에서 어떻게 사용자에게 보여주고 관리할 것인지도 중요한 주제인데요. 한편으로 클라우드 관점에서는 이와 관련해서 비용이 저렴하면서도 합리적인 접근 시간을 보장하는 스토리지가 필요합니다.

즉 클라우드 관점에서는 데이터의 라이프사이클에 맞춰 다양한 스토리지 기술을 확보하는 것이 중요합니다. 여기에는 비용, 처리량, 처리 속도, 검색, 압축, 중복 제거, 암호화 등의 여러 관점이 포함됩니다. IT 서비스를 하는 회사라면 이러한 준비는 필수 과제라고 할 수 있습니다.

Flava의 미래 2: Flava와 AI

다른 많은 분야에서와 마찬가지로 클라우드에서도 앞으로의 기술과 서비스를 다룰 때 AI를 언급하지 않을 수 없습니다. 현재 Flava에서는 세 가지 관점에서 AI에 접근하고 있습니다.

image
AI로 생성한 이미지입니다.

AIOps를 위한 도구 제공

먼저 AIOps(artificial intelligence for IT operations)를 위한 플랫폼을 제공하는 것입니다.

현재 LY Corporation에서는 기술 조직을 포함해 대부분의 조직에서 업무 효율화를 위해 AI를 대거 도입하고 있습니다. AI 도구 및 에이전트를 개발하려면 여러 AIOps 플랫폼이 필요합니다. 예를 들어 회사에서 인가된 MCP(model context protocol) 서버를 만들고 관리할 플랫폼이나 각종 벡터 DB 플랫폼, AI 도구 개발의 디버깅을 지원하는 Langfuse 같은 AI 관측 가능성(observability) 플랫폼, AI 모델을 관리하는 플랫폼 등은 어느 기술 조직에서나 많이 사용하고 있으며. 관련 기술 플랫폼들은 따라기기 힘들 정도의 속도로 생산되고 발전하고 있습니다.

AI 도구 및 에이전트는 여러 데이터를 참조하기 때문에 당연히 사내 데이터 처리 규정과 보안 규정에 따라 개발되고 관리돼야 합니다. 그러므로 여러 기술 조직에서 사용하기 시작하는 AI 개발 플랫폼을 빠르게 센싱해 기술 표준과 회사 규정에 맞춰 회사 공통 클라우드 플랫폼으로 제공하는 것이 필요합니다.

AI를 위한 하위 레이어 기술 확보

두 번째는 조금 더 하위 레이어의 기술들로 네트워크와 스토리지 기술을 말씀드리고 싶습니다.

AI 서비스와 기술들은 기존 서비스나 기술과 비교해 더 많은 데이터를 처리하면서 동시에 굉장히 짧은 네트워크 지연 시간을 요구하고 있습니다. 이에 따라 전 세계적으로 고속 네트워크를 위한 DPU(data processing unit)나 스마트 NIC(network interface card) 기술을 중요하게 다루고 있으며, 향후 초고속 NVMe( non-volatile memory express) 기반 스토리지나 스토리지의 계층화 자동화 등의 기술도 많이 발전할 것으로 보입니다.

사실 클라우드라는 것이 인프라와 플랫폼을 제공하는 대표적인 방식이기 때문에 방대한 IT기술들이 집적돼 있는데요. 그 근간을 이루는 많은 기술 중에서 오래 전부터 다뤄진 영역이지만 아직까지도 기술적인 난제가 많은 곳이 네트워크과 스토리지인 것 같습니다. 네트워크와 스토리지는 작은 인프라 규모에서는 기술적인 도전 영역이 많지 않지만, 수십만 대의 서버를 집적하는 클라우드 규모에서는 상황이 다릅니다. 지연 시간, 안정성, 장애 내구성, 처리량, 변경 관리, 보안 등의 관점에서 이를 확장 가능하게 구현하는 것은 쉽지 않습니다. 아울러 관련 개발자를 채용하는 것도 극히 어렵고요.

다행히 Flava에는 클라우드 네트워크와 클라우드 스토리지를 다루는 엔지니어 팀이 갖춰져 있고, 지난 수년간 LINE 앱이나 Yahoo! JAPAN 관련 서비스에서 사용하는 대규모 클라우드 인프라로서 해당 분야의 기술을 성숙시켜 왔습니다. 대규모 인프라에서 AI 워크로드를 수행하기에 적합한 네트워크와 스토리지 기술을 확보하기 위한 도전에도 만전을 기할 예정입니다.

인텔리전트 클라우드로 진화

세 번째는 AI와 융합된 인텔리전트 클라우드입니다. 클라우드에서 리소스를 관리할 때 웹 UI나 API, CLI 등을 활용하거나 Terraform과 같은 IaC(infrastructure as code) 도구를 이용하게 됩니다만, AI 시대가 다가온 지금부터의 클라우드는 사람과의 상호작용에 변화가 생길 것 같습니다.

예를 들어 다음과 같은 요구 사항이 있다고 가정해 보겠습니다.

"우리 서비스는 사용자로부터 초당 3만 건의 이미지를 업로드 받고, 썸네일을 5종류로 만들고, 관련 이력을 메시지 큐를 통해 로그 시스템에 저장합니다. 업로드된 이미지는 전처리기에서 AI 기술을 활용해 성인물이나 폭력성이 있는 이미지인지 검사해 해당 이미지에는 레이블을 붙입니다. 또한 사용자의 접근 패턴을 분석해서 자주 접근될 때에는 지연 시간이 짧고 처리량이 높은 스토리지에 저장하고, 자주 접근되지 않으면 비용이 저렴하지만 검색은 1초 내에 가능한 2차 스토리지에 저장합니다. 이후 2차 스토리지에서도 접근되지 않으면 3시간 이내에 다운로드할 수 있는 제일 비용이 저렴한 3차 스토리지로 이동합니다."

이런 시스템을 만들고자 한다면 현재는 개발자와 인프라 및 플랫폼 전문가들이 모여서 아키텍처를 고민하고 솔루션을 찾아야 하지만, 앞으로는 위와 같은 자연어 요건만 입력해도 클라우드가 해당 요건을 구현할 수 있는 기술 아키텍처를 제안한 뒤 이를 실행해 구축할 것입니다. "A 프로젝트의 네트워크 다이어그램을 그리고, ACL은 소스/목적지 기준으로 매트릭스를 만들고 싶어"라고 입력하면 인텔리전트 클라우드는 네트워크 다이어그램과 ACL 매트릭스를 제공할 것입니다. 최근 퍼블릭 클라우드에서는 LLM과 클라우드가 결합된 모습이 나타나기 시작했습니다. Flava 역시 이와 같은 형태의 인텔리전트 클라우드로 진화해 Flava를 사용하는 것이 훨씬 쉽고 편리하게 느껴지게 하고 싶습니다.

아울러 수많은 리소스의 취약점 관리나 비용 최적화 방안 제안, 리소스 사용률 관리, 암호화되지 않은 개인 정보 탐지 등의 작업도 앞으로는 인텔리전트 클라우드가 담당하게 될 것입니다. 관련해서 Flava에서도 프로토타이핑을 진행했는데요. 그동안 대부분의 엔지니어가 시간을 투자해 참여해야 했던 '저사용률 리소스 효율화 캠페인' 같은 작업은 이제 Flava 챗봇이 담당할 시기가 머지 않았습니다.

예를 들어 A라는 프로젝트에서 AI가 선별한 사용량이 낮은 리소스를 목록으로 확인하거나 전체 리소스 사용률과 A 프로젝트의 리소스 사용률의 비교하고 그 수준을 확인할 수 있습니다. 만약 A 프로젝트의 리소스 사용률이 전체 리소스 사용률에 비춰볼 때 하위 10% 수준이라면 해당 프로젝트 담당자들은 리소스 사용률에 보다 신경을 써야 할 텐데요. 그때 Flava에게 다음과 같이 도움을 요청할 수 있게 될 것입니다.

"A 프로젝트에서 낮은 사용률의 기준을 정하고, 사용률이 낮은 리소스 목록을 만든 뒤 비용을 줄이기 위한 방안을 제안해줘. 페일 오버(fail-over)를 위한 대기(standby) 서버들은 별도로 표시하고, 페일 오버의 낮은 사용률에 대해서도 비용 절감 방안을 제안해줘"

혹은 다음과 같은 요청도 가능하게 될 것입니다.

"매월 1일에는 DB와 로그, 오브젝트 스토리지에서 사용자의 개인 정보로 추정되는 데이터인데 암호화돼 있지 않은 것으로 보이는 데이터가 있는지 체크해줘"
"OSS(open source software) 취약성이 있는 서버들의 목록을 만들고 우선순위를 정한 뒤 조치 방안별로 분류해줘".

지금까지는 이와 같은 기술 조치가 필요한 관리/운영 업무를 우리가 직접 수행해 왔지만, 앞으로는 더 이상 개인이나 팀의 몫이 아닐 것입니다. AI 인텔리전트 클라우드라는 새로운 팀이 우리를 대신해 이 업무를 수행해 주는 세상이 곧 올 것이라고 생각합니다.

image
AI로 생성한 이미지입니다.

마치며

이번 글에서는 너무 먼 미래가 아닌, 2~3년 내로 우리에게 다가올 것으로 보이는 미래 클라우드의 모습을 살펴봤습니다. 클라우드는 수많은 영역의 기술이 모인 집합체입니다. 하위 레이어의 기술을 깊이 이해하고 글로벌의 첨단 기술을 도입하는 것부터, 서비스 개발에 필요한 플랫폼 도구를 UX 관점부터 기획하고 개발해 이를 효율적인 비용으로 안정적으로 운영하는 것은 다양한 분야의 우수한 엔지니어들이 모여 있어야만 가능합니다.

지식과 경험을 공유하며 새로운 세상을 상상하고 이를 실행해 나가는 것은 참으로 재미있는 일입니다. 아울러 도구를 만드는 일을 한다는 것은 스스로 사용자 경험을 잘 이해하고, 기술을 심화시키며, 사용자에게 제공될 서비스의 모습을 구체화하고 이를 실현하기 위한 기술적 실행력을 갖추는 것입니다.

미래의 클라우드를 만드는 것은 저 멀리 실리콘 밸리에서만 가능한 것이 아닙니다. 스스로 꿈을 품고 그 꿈을 실현하려고 한다면 우리도 멋진 미래의 클라우드를 만들어 낼 수 있습니다. Flava는 끊임없이 기술을 탐구하면서 새롭고 멋진 클라우드 세상을 꿈꾸며 지속적으로 실행해 나가겠습니다. 많은 응원 부탁드립니다.