Staff, Site Reliability Engineer (Tech Infra)
Quick Summary
· Serve as a primary point responsible for the reliability, health, and performance of all Coupang customer-facing services. · Gain deep knowledge of Coupang application workflow and dependencies.
· 5+ years of industry experience building and operating large scale distributed systems. · Deep UNIX/Linux systems knowledge and administration background.
쿠팡은 고객 감동 실현을 위해 존재합니다. 고객들이 "쿠팡 없이 그동안 어떻게 살았을까?" 라고 말할 때, 비로소 우리의 미션을 실현하고 있음을 알 수 있습니다. 고객들의 쇼핑과 식사, 생활 전반을 편하게 만들겠다는 유일한 집념으로 쿠팡은 수억 달러 규모의 이커머스 산업 전반의 혁신을 이끌고 있습니다. 쿠팡은 가장 빠르게 성장하는 이커머스 기업 중 하나로, 국내 커머스 업계에서의 독보적인 입지와, 고객 신뢰를 구축했습니다.
쿠팡은 스타트업 문화를 기반으로 한 글로벌 대형 상장사라고 자부합니다. 이것이 창립 당시의 기민함을 지하며, 신규 서비스를 끊임없이 출시하며 비즈니스를 확장해 나가는 우리의 성장 동력입니다. 쿠팡의 모든 임직원에게는 기업가 정신을 갖추고 새로운 혁신과 이니셔티브를 추진할 수 있는 기회가 주어집니다. 주저 없이 일에 뛰어들어 성과를 이루고자 하는 과감성이, 바로 쿠팡이 일하는 방식의 본질입니다. 쿠팡에서는 여러분 자신, 동료, 팀 그리고 회사 전체가 매일 성장하는 모습을 목격할 것입니다.
쿠팡의 모든 직원은 커머스의 미래를 만들겠다는 쿠팡의 미션에 진심입니다. 우리는 고객의 문제를 해결해 나가고, 전통적인 관념과 통념에 맞서며 실현 가능한 한계를 뛰어넘고 있습니다. 고가용성 (always-on) 과 최첨단의 앞선 기술 (high-tech), 초연결사회 (hyper-connected world) 에서의 놀라운 업무 경험을 원하신다면, 지금 바로 쿠팡에 합류하세요.
- 쿠팡의 모든 고객 대상 서비스의 안정성, 상태, 성능을 책임지는 주요 담당자로 역할 수행
- 쿠팡 애플리케이션의 워크플로우와 의존성에 대한 깊은 이해 확보
- 시스템 가용성, 성능, 안정성과 관련된 KPI 및 SLO 정의 및 관리
- 신속한 장애 복구, 운영 리뷰 및 사후 분석을 포함한 Incident Management 프로세스 및 자동화 구축
- 효과적인 모니터링, 알림, 텔레메트리 시스템 구축 및 운영을 위한 베스트 프랙티스 수립
- 서비스 성장에 대비하기 위한 정기적인 Disaster Recovery 테스트 및 Load Testing 자동화 구축
- 제품 개발 팀과 긴밀히 협력하여 확장성과 운영 용이성을 고려한 설계 구현
- 서비스 안정성을 유지하기 위한 프로덕션 배포 가드레일 및 자동화 구축
- 24x7 온콜 로테이션 참여 및 빠른 속도의 환경에서 문제 대응
- 조직 내 다양한 레벨과 효과적으로 커뮤니케이션
- 대규모 분산 시스템 구축 및 운영 경력 5년 이상
- UNIX/Linux 시스템에 대한 깊은 이해와 운영 경험
- Python, Java, Golang, Ruby 중 하나 이상의 프로그래밍 역량
- 시스템, 네트워크(TCP/IP), 코드 전반에 걸친 문제 해결 및 분석 능력 (데이터 기반 의사결정 포함)
- AWS, Azure, Google Cloud Platform 등 클라우드 인프라 경험
- CI/CD, IaC 등 DevOps 및 SRE 관련 실무 이해 (Terraform 사용 경험 우대)
- Docker, Kubernetes 등 컨테이너 및 오케스트레이션 기술 경험
- 다양한 조직과 기술 영역 간 협업이 가능한 커뮤니케이션 역량
- Prometheus, Grafana, Elastic Stack, Datadog, New Relic 등 Observability 도구 경험
- 컴퓨터공학, 엔지니어링 또는 관련 분야 학사 학위
- 대규모 웹 기반 Java 아키텍처 및 JVM 설정 경험
- 클라우드, 모니터링 등 관련 기술 자격증 보유
- 대규모 이커머스 플랫폼 경험
근무지: 쿠팡 선릉 오피스
About the Role
~1 min readSite Reliability Engineers (SREs) at Coupang is a mission-critical role which combines software and system engineering to build, run and scale our complex, large-scale ecommerce systems. As part of the Site Reliability Engineering team, you will be responsible for ensuring all our customer facing services are healthy, monitored, automated, and designed to scale. As SRE organization we take pride in handling “operations as an engineering” problem with automation first approach. You will use your background to build best in class infrastructure automation for areas such as Observability, Incident management, Disaster Recovery, Load testing, Capacity engineering and many more. In this role you will work very closely with our product development teams from an early stage of design to all the way helping resolve any production incidents, maintaining SLI/SLA bar for production services and influencing them with SRE principles and best practices. If you take pride in complete ownership, have a passion for solving complex technical challenges for large scale distributed systems and demeanor to work and communicate effectively across team boundaries, this is the role for you!
Responsibilities
~1 min read· Serve as a primary point responsible for the reliability, health, and performance of all Coupang customer-facing services.
· Gain deep knowledge of Coupang application workflow and dependencies.
· Define and track key performance indicators (KPIs) and service-level objectives (SLOs) related to system availability, performance, and reliability.
· Build world class incident management process and automation, including fast incident remediation, incident operational reviews and retrospectives.
· Develop and implement best practices for creating and maintaining effective monitoring, alerting, and telemetry systems.
· Build automation to execute regular Disaster Recovery testing and load testing to stay ahead of expected growth of Coupang services.
· Work closely with product development teams to ensure the products are designed with scale and operability in mind.
· Build right guardrails and automation for deploying production changes holding the reliability bar.
· Participate in a 24x7 rotation for production issue escalations, functions well in a fast-paced environment.
· Communicate effectively with people at all levels of the organization.
Requirements
~1 min read· 5+ years of industry experience building and operating large scale distributed systems.
· Deep UNIX/Linux systems knowledge and administration background.
· Demonstrated programming skills in one or more of: Python, Java, Golang, Ruby.
· Strong problem-solving and analytical skills spanning systems, network (TCP/IP) and code, with a focus on data-driven decision-making.
· Experience with cloud-based infrastructure, including AWS, Azure, or Google Cloud Platform.
· Strong understanding of DevOps and SRE practices, including continuous integration, continuous delivery, and infrastructure as code (IaC). Experience with Terraform is a plus.
· Experience with containerization and orchestration technologies, such as Docker and Kubernetes.
· Excellent communication and collaboration skills, with the ability to work with teams across distinct functions and technical domains.
· Knowledge of observability ecosystem including metrics, logging, tracing and tools, such as Prometheus, Grafana, Elastic Stack, Datadog, or New Relic.
· Bachelor's degree in computer science, engineering, or a related technical field.
· Prior experience working with large scale web-based Java architectures and JVM configuration.
· Professional certifications in cloud platforms, monitoring tools, or related technologies.
· Previous experience working on a large-scale eCommerce platform.
Office: Seoul, Korea
Location & Eligibility
Listing Details
- Posted
- June 24, 2026
- First seen
- June 24, 2026
- Last seen
- June 24, 2026
Posting Health
- Days active
- 0
- Repost count
- 0
- Trust Level
- 67%
- Scored at
- June 24, 2026
Signal breakdown
Coupang is a U.S. retail company known for its fast delivery services and commitment to customer satisfaction.
View company profilePlease let Coupang know you found this job on Jobera.
3 other jobs at Coupang
View all →Explore open roles at Coupang.
Similar Staff Site Reliability Engineer jobs
View all →Browse Similar Jobs
Stay ahead of the market
Get the latest job openings, salary trends, and hiring insights delivered to your inbox every week.
No spam. Unsubscribe at any time.