로그의 통찰 로그 인텔리전스(Log Intelligence AIOps)

- 8월 22, 2023

로그의 통찰 로그 인텔리전스(AIOps)

로그 인텔리전스 (Log Intelligence, AIOps)는 인공 지능과 기계 학습을 활용하여 IT 운영을 자동화하고 개선하기 위한 접근 방식입니다. AIOps는 IT 환경에서 발생하는 대량의 데이터와 로그를 분석하여 문제를 예측하고 해결하며, 더 나은 운영 및 관리 프로세스를 구축 할 수 있습니다.

로그의 통찰 로그 인텔리전스 (AIOps) 사례와 도구

로그는 애플리케이션에서 생기는 오류나 처리 상황을 파악하기 위해 사용하는 프로그램의 모니터링에 가장 기본적인 기능입니다. 최근 로그들의 분석 환경들은 클라우드 및 분산 환경의 다양하고 방대한 로그를 수집하여 실시간 분석하여 자동화하는 것이 로그 인텔리전스의 동향입니다.

일반적인 로그의 활용

개발 측면에서는 애플리케이션과 시스템의 로그를 수집하여 애플리케이션들의 결함을 찾고 성능과 품질을 개선하는데 활용 합니다.
보안 측면에서는 서비스의 이상 징후나 침해 예방을 위한 보안 감시를 통해 서비스를 감시/관리 하는데 활용됩니다.
또 비즈니스 상에서는 서비스의 결함과 처리 상태를 확인하여 완전한 서비스 품질관리 차원에서 활용되고 있습니다
이러한 일반적인 환경들도 대부분 통합 로그시스템, 클라우기반 로그수집과 분석 등을 할 수있는 다양한 도구와 결합하여 실시간으로 로그 수집과 분석이 가능해 졌습니다.

로그 분석 도구의 동향

최근 로그 분석 도구는  앱 또는 시스템의 이용자 관점에서 데이터를 수집하여 통찰력을 얻을 수 있도록  통합된 환경에서 로그를  실시간으로  수집하고 모니터링하고 분석/평가가 가능해졌습니다.
산더미 같은 로그 데이터에서 가장 의미 있는 이용자의 행동 패턴을 실시간으로 찾아냄으로써 발생한 문제를 신속하게 해결하고 수정할 수 있게 되었습니다.

반면 기존의 로그 분석 도구는 배치를 통한 수동 쿼리 수준에서 동일한 데이터를 찾거나 규칙 기반 정책을 이용해서  데이터를 통합하고 정제하는 선행 작업이 필요합니다. 이러한 방식으로도 현재 시스템에서 실행 중인 응용 프로그램의 문제를 해결하거나 비즈니스 위험을 완화하는데 도움이 될 수 있습니다.
하지만 MSA, API 같이 복잡한 분산 시스템의 다양한 로그와 클라우드 환경과 같이 수많은 서비스에서  제공되는 분산 저장된 로그 데이터의 통합하여 수집 관리하는 데는 자동화가 필요합니다.

데이터 응용 중심 로그인탤리전스
최근 로그 분석 도구들은 주로 클라우드 기반의 데이터 수집과 분석을 연계하고 AI 기술을 통해 데이터의 추이와 예측이 가능하도록 제공하여 시스템운영, 보안운영, 비즈니스 운영 측면에서 통합된 인텔리전스를 제공하는 AIOps를 지향하는 추세입니다.

로그 인텔리전스(Log Intelligence)란?

과거 시스템 모니터링은 사람의 육안을 통해 로그에서 발생한 문제를 하나씩 Trace 하면서 문제를 해왔 있습니다. 이제는 시스템과 서비스가 복잡해지는 상황에서 방대한 로그를 분석하는데 사람의 눈과 정책으로 관리를 하는 데는 시간적 기술적인 한계가 있습니다

로그 인텔리전스는 AI 및 자동화를 기반으로 로그 분석을 자동화 하고 예측하여 제공하는 기술입니다.

로그 인텔리전스(Log Intelligence)는 AI 및 자동화를 기반으로 로그 분석을 자동화 하고 예측하여 제공하는 기술입니다.

로그 인텔리전스 플랫폼은 시스템에서 "정상적인" 동작이 무엇인지 학습하고 동일한 시간 프레임에 경고 및 메트릭 콘텍스트에서 성능에 영향을 미치는 문제를 표시할 수 있습니다.
로그 인텔리전스 계층은 자동으로 로그를 분석하여 문제의 근본 원인을 찾을 수 있고 로그 데이터 내에 존재하는 이상 현상을 예측하여 문제가 발생하기 전에 미리 예방하기도 합니다.

사례 - 로그인텔리전스 (IBM Security QRadar)

□ IBM Security QRadar는 단순한 로그 수집, 분석 (파싱), 단순 검색에 그치지 않고, 네트워크 플로우, 취약점 스캔 결과 등을 수집하여 보다 정밀하며, 포괄적인 상관관계 분석 및 컴플라이언스 관리를 제공하는 차세대 SIEM(보안정보 및 이벤트 관리)

로그, 이벤트 데이터, 네트워크 플로우와 패킷, 취약점, 자산 데이터, 위협 인텔리전스에 대한 통합된 뷰를 제공
전사적 엔터프라이즈로부터 로그, 네트워크 트래픽, 사용자 활동 등을 상관관계를 분석하고 Anomaly 감지

기계 학습을 로그 분석 도구에 적용하는 방안

1단계 – 데이터 수집 및 학습

로그 데이터를 수동으로 검색할 때 로그가 많을수록 고려해야 하는 항목이 복잡해서 분석이 어렵습니다. 기계 학습을 사용하면 데이터가 많을수록 다양한 조건에서 가장 잘 작동하는 것을 확인하기 위해 더 많은 알고리즘을 설정할 수 있습니다. 가능한 한 많은 데이터 소스를 통해서 많은 정보를 수집하면 기계가 미래의 문제를 예측할 수 있습니다.

2단계 – 학습된 데이터에서 정상 범위 정의

기계 학습을 적용하는 다음 단계는 로그 데이터에서 정상 범위에 속하는 항목을 감지하는 것입니다. 시간 경과에 따른 추세를 확인하는 데 필요한 충분한 로그 데이터가 있는 경우 기계 학습을 수동으로 수행하거나 로그 데이터의 차이를 반환하는 탐지 알고리즘을 사용하여 데이터의 정상 범위를 찾을 수 있습니다.

3단계 – 알고리즘 생성

로그 데이터가 수집되고 정상 범위가 설정되면 이를 사용하여 로그 데이터가 추적 중인 메트릭의 정의된 정상 범위를 벗어날 때 경고할 수 있는 알고리즘을 배포할 수 있습니다. 또 추적 중인 일련의 수백 또는 수천 개의 측정항목이 무엇이든 상관없이 자동화된 처리가 가능합니다.

사례 - 보안 로그인텔리전스 (Microsoft Sentinel)

□ Microsoft Sentinel은 기업 전체에 지능형 보안 분석 및 위협 인텔리전스를 제공하는 클라우드 네이티브 솔루션

SIEM(보안 정보 및 이벤트 관리)
SOAR(보안 오케스트레이션, 자동화 및 응답)
온-프레미스와 여러 클라우드의 모든 사용자, 디바이스, 애플리케이션 및 인프라에서 클라우드 규모로 데이터를 수집
일반 작업의 기본 제공 오케스트레이션 및 자동화로 빠르게 인시던트에 대응

로그의 양과 다양성으로 인한 어려움

장기간에 걸쳐 하나의 로그 볼륨을 볼 때는 이상 징후를 쉽게 볼 수 있습니다. 그러나 다양한 메트릭 및 데이터 소스에 대한 다양한 형태의 로그를 볼 때 서로 간의 복잡한 연관 관계와 문제의 식별이 어려워집니다.

로그분석의 AI도입 필요성

수십만 개의 다양한 데이터 소스와 방대한 양의 로그를 결합하는 것은 매우 어렵고, 서로 다른 데이터 소스의 서로 다른 로그 간의 상관관계를 찾는 것은 훨씬 더 이해하기 어렵습니다.
로그가 계속 확장됨에 따라 자동으로 적응하고 이상을 찾는 알고리즘을 생성하기 위해 인공 지능이 요구되고 있습니다.

AI를 이용한 로그 분석의 이점

로그 분석 도구와 함께 인공 지능을 사용하면 다음과 같은 다양한 이점을 얻을 수 있습니다.

– 데이터를 더 빠르게 정렬합니다.

AI는 유사한 로그를 함께 그룹화하고 로그를 더 체계적으로 유지하여 더 빨리 확인해야 하는 곳으로 이동할 수 있습니다.

– 문제를 자동으로 감지합니다.

수동 로그 분석을 사용하면 정상 범위를 벗어나 발생하는 데이터 포인트를 설정해야 합니다. 머신 러닝을 사용하면 수십만 개의 데이터 포인트와 로그가 있을 때 유용하고 유사한 문제를 자동으로 감지할 수 있습니다.

– 중요한 정보에 대해서만 알림을 받습니다.

IT의 많은 경고와 마찬가지로 로그의 경고는 "늑대를 우는 소년 증후군"에 걸리기 쉽습니다. 로그 분석 도구가 너무 많은 경고를 생성하면 문제가 있어도 단일 경고가 문제의 원인을 파악하기 어렵습니다. AI를 사용하면 주의를 기울일 만한 일이 발생할 때만 알림을 받도록 조정하고 판단의 기준을 명확화 하여 혼란을 없애고 불필요한 중복 알림을 건너뛸 수 있습니다.

– 문제가 발생하기 전에 이상 징후를 감지합니다.

로그 분석을 위한 AI의 가장 강력한 이점 중 하나는 이상 징후를 조기에 감지할 수 있다는 것입니다. 대부분의 재앙적인 사건에는 일반적으로 초기 이상 현상이 해결되지 않았기 때문에 발생하는 연쇄 반응이 있습니다. AI를 사용하면 증상이 아닌 원인을 찾아 제거할 수 있습니다.

– 리소스를 더 빠르고 효율적으로 할당합니다.

로그 데이터를 분석하는데 분석의 중요도에 따라 너무 많은 시간을 한 곳에 소비하지 않도록 가장 필요한 곳에 리소스를 더 빠르고 많이 배분할 수 있습니다.

이러한 로그 인텔리전스는 신속하고 편리한 로그의 분석도 있지만 ,
많은 시스템들이 대량의 데이터 처리를 하면서 사람의 눈과 정책으로 로그를 보고 문제를 해결하는데 양적, 질적인 한계를 해결하고, 빠르고 쉽게 문제를 감지하고 분류하여 해결하는데 요구되고 있습니다.

사례 - DevOps 로그인텔리전스 (sumologick)

□ sumologick은 DevSecOps를 위한 Continuous Intelligence Platform

(운영 인텔리전스) 실시간 모니터링과 분석 환경을 통해서 문제의 사전예방적 모니터링이 가능
(보안 인텔리전스) 빠르게 감지하고, 보다 신속한 조사를 가능케 하며, 컴플라이언스를 보장
(비즈니스 인텔리전스) 실시간 분석 플랫폼을 사용하여 데이터 중심의 비즈니스 의사결정을 가능하게 하고, 고객의 행동을 예측 및 분석

□ 카스퍼스키랩, 위협 인텔리전스 통합 분석 무료 도구

‘카스퍼스키 사이버트레이스’는 ▲IBM 큐레이더(QRadar) ▲스플렁크(Splunk) ▲아크사이트(ArcSight) ESM ▲로그리듬(LogRhythm) ▲RSA 넷위트니스(NetWitness) ▲맥아피(McAfee) ESM 등의 다양한 SIEM 솔루션은 물론, 방화벽 및 게이트웨이와 같은 기타 보안 제품과도 원활하게 통합

기타 참고
- https://www.cloudfabrix.com/log-intelligence/

이 블로그 검색

AgileBus - IT기술자를 위한 기술 Trends와 지식

🚀 AI & Tech 데일리 브리핑 (2026.03.30)