[Platform Department 소개]
Hyperconnect Platform Department는 SRE팀, DevOps팀, Platform개발팀, Data Engineering팀 구성원들이 모여 Azar, Hakuna Live, Hyperconnect Enterprise 등 전사 모든 서비스에 인프라와 공통 플랫폼 기술을 제공하여 비즈니스 임팩트를 만들고 있습니다. 또한, 기술 silo화를 방지하고 전사적으로 훌륭한 엔지니어링 문화를 만들어가는데 기여하고 있습니다.
Platform Department에서는 이렇게 일하고 있습니다.
- 개발팀에서 필요한 인프라를 단순히 생성하는 것이 아니라, 비즈니스 요구사항과 기술적인 요구사항을 모두 포괄하여 알맞은 시스템 설계를 제공하고 있습니다. 이 과정에서 전사 개발팀 뿐만 아니라 필요 시 다른 직군의 이해관계자와 질의 응답을 진행하는 전반적인 process를 리딩하고 있습니다.
- 기술적 지표, 로그 및 소스코드 등 다양한 정보를 스스로 탐색하여, 개발팀 또는 SRE/DevOps팀의 사각지대에 위치한 문제를 찾아 정의해내고 해결하고 있습니다.
- 기본적인 설계 방법 및 모범 사례에 대한 문서를 작성하여, 개발팀이나 다른 SRE/DevOps팀 동료가 스스로 문제를 해결 할 수 있도록 돕고 있습니다.
- 현재 기술 스택에 안주하지 않고, 문제를 더 잘 해결 할 수 있는 새로운 기술을 탐구하여 적극적으로 도입하고 있습니다.
SRE Team 소개
SRE팀은 하이퍼커넥트에서 개발되는 모든 서비스를 안정적으로 유지함으로써 사용자들이 하이퍼커넥트가 제공하는 특별한 경험을 불편 없이 즐길 수 있도록 하는 것을 목표로 하고 있습니다.
- 장애 대응, 사후 분석, 예방 활동, 장애 대응 메뉴얼 개선의 활동을 전사적인 관점에서 관리하고, 서비스가 안정적으로 제공될 수 있도록 하는 모든 활동을 수행합니다.
- 개발팀의 어려움을 다양한 경로를 통해 수집하고, 비즈니스 미션을 함께 달성할 수 있도록 적극적으로 지원합니다.
- 시스템 가용성, 신뢰성, 확장성과 관련된 다양한 지표들을 분석하고 모니터링하며 서비스팀과 함께 이를 점진적으로 개선해나갑니다.
- 개발자들이 Devops/SRE가 제공하는 시스템을 잘 사용할 수 있도록 적극적인 교육과 가이드를 제공합니다.
- 모든 개발자들이 두려움 없이 배포할 수 있도록 지원하며 이를 위한 다양한 플랫폼을 DevOps팀과 함께 관리하고 개선합니다.
팀에 합류하신다면,
- AWS, K8S, Service mesh 등 현대화된 컴퓨팅 및 네트워크 인프라를 모든 서비스와 시스템에 적극적으로 사용하고 경험해볼 수 있습니다.
- 단순한 인프라 관리 및 프로비저닝 지원 수준을 넘어서, 백엔드 엔지니어링에 깊게 기여 할 수 있습니다.
- 실시간성이 요구되는 비즈니스 특성 상 고성능 / 저지연 시스템에 대한 깊은 고민을 함께 해볼 수 있습니다.
- 글로벌 환경에서의 대규모 인프라, multi-products, B2B와 B2C를 아우르는 복잡한 production 환경을 관리하기 위한 다양한 know-how와 best practice들을 경험할 수 있습니다.
HyperLink 세션에서 SRE팀이 어떻게 일하고, 어떤 문제를 해결하는지 살펴보세요!
[업무 내용]
Public 클라우드 환경에서의 고가용성 시스템 인프라 구축 및 운영
- AWS로 구성된 클라우드 환경에서 서버 시스템의 인프라를 구축하고 운영합니다.
- 클라우드 제공자가 제공하는 콘솔에서 작업하는 것보다는 코드로서 관리하는 것을 선호하기 때문에 Terraform, Helm, ArgoCD 등을 사용하고 있으며, 애플리케이션 배포는 Spinnaker 기반 IDP(internal developer platform)을 통해 Kubernetes 기반의 컨테이너 환경에 배포하고 있습니다.
시스템/애플리케이션 로깅, 모니터링 및 자동화
- 안정적인 로깅과 모니터링은 서비스 안정성의 필수요소입니다. Zabbix와 Prometheus를 통해 최대한 모니터링을 자동화하여 사람의 개입 없이도 인프라 리소스를 auto-discovery하고 적절한 알람이 설정되도록 아름답게 시스템을 구성합니다.
- OpenTelemetry와 Elasticsearch를 적극적으로 사용하여 300+개의 마이크로서비스의 애플리케이션 모니터링을 수행하고 있습니다.
- 이 과정에서 자동화 도구가 필요하다면 자체적으로도 개발하고 사내에 공유하고 있습니다.
- 또한 Grafana Mimir를 활용하여 엔터프라이즈 규모의 시계열 메트릭 관리 및 수집을 안정적으로 수행하고 있습니다.
서비스 장애 대응 및 포스트모텀 문화 리딩
- 서비스 개발팀과 함께 장애 발생 시 적절한 조치를 취하고, 그에 대한 근본적인 원인 분석을 수행하여 재발을 방지하는 전략을 함께 계획하고 수행합니다.
- 또한, 이러한 모든 활동이 전사적으로 잘 수행될 수 있도록 다양한 프로세스와 도구를 개발하고 운영하며, 이를 지속적으로 개선하고 발전시켜 나가고 있습니다.
SLO/SLI 기반 서비스 개선 포인트 및 문제점 발굴, 최적화
- 서비스 운영 중 발생하는 문제점을 지속적으로 모니터링하고, 서비스의 성능, 안정성, 확장성 등 다양한 측면에서 개선할 수 있는 포인트나 문제점을 파악하고 개선하는 작업을 수행하고 있습니다.
- 특히, 하이퍼커넥트에서 가장 중요한 저지연/고성능의 코어 시스템과 글로벌 미디어 시스템에 주요하게 기여하고 있습니다.
- 이러한 개선 작업에는 클라우드 인프라, CDN/Network, Application 최적화, 신규 솔루션 도입 등 다양한 기술 영역을 포괄하고 있습니다.
신기술 PoC 및 프로덕션 적용
- 신뢰성 향상을 위한 다양한 도구들을 새로 개발하거나 연구하여 실제 운영 환경에 적용하고 있습니다. 새로 개발되는 도구를 개발환경에 적극적으로 적용하고 장점과 단점에 대해 의논하며, 철저한 검증을 통해 안정성을 유지하면서 운영 환경에 적용합니다.