데이터 분석

생성형 AI. 앞으로는 어떻게 될까?

25G 2024. 1. 25. 18:34

생성형 AI의 등장 후 앞으로는 어떻게 될까?

chatGPT의 등장으로 많은 기회가 생겼고 LMM의 민주화가 시작됐습니다. chatGPT가 나온 후로는 데이터레이크를 다루는 부분에 대한 기업의 인식과 프로세스가 많이 바뀌었습니다. 앞으로는 기업들이 자체적인 온프레미스를 구축하기 위해서 많은 리소스를 투입할텐데 이때 가장 중요것은 데이터셋이 됩니다. 그러면서 데이터레이크에 대한 인식이 개발자만이 아닌 기업의 운영진들도 데이터의 중요성을 gpt의 등장으로 인식하게 됐기때문입니다.

그럼 그냥 ChatGPT쓰면 안돼?!

기업입장에서는 오픈된 생성형 AI들을 쓰게되면 무엇보다 데이터보안적인 측면에서 좋지 않습니다. 내부적으로 프롬프트에대해서 학습을 하고 있을것이 뻔하기 때문이죠
그럼 이 파운데이션 모델로 우리가 비즈니스에 맞게 온프레미스로 구축하자! 로 자연스레 움직임이 흐르게 되는것입니다.

하드웨어 비용의 증대,,,

데이터의 규모가 어마어마하게 커지고 있습니다. 그렇기 때문에 하드웨어 비용이 굉장히 커지고 있습니다. 하드웨어가 비싸졌다기 보단 데이터의 양이 커지면서 비용이 늘어나는 추세를 보이고 있습니다. 그리고 LLM의 고도화 과정에서 모델크기는 점점 커지고 있습니다.

AI를 위한 스토리지 이야기

AI는 많은 데이터 셋을 필요로 합니다. 이를 해결하기 위한 흐름을 알게 됐습니다.
결국엔 돈과 자원의 문제...

다크데이터는 어떻게 하지?

데이터?! 그래 좋은데 막 밀려들어오는 다크데이터들까지 포함하면 데이터는 많은데 데이터를 분석하고 활용하는게 쉽지 않은 비지니스적인 문제를 맞이하게 됩니다. 그럼 분석을 못함(도구의 부제) -> 인사이트 도출 못함 -> 데이터가 의미없어짐 과같은 전철을 밟게 됐는데 이제 가장 앞단에 "도구의 부제" 부분은 생성형AI의 등장으로 어느정도 해결점을 찾게 됐습니다. 그렇게 다크 데이터가 힘을 발휘할 수 있는 환경이 생성형AI의 등장으로 생기게 된 것 입니다.

데이터레이크 하우스 1세대

DW정보게 시스템 hadoop기반의 데이터레이크인데 데이터 레이크란 다양한 형태의 원형데이터들을 모은 저장소의 집합을 뜻합니다.
정형데이터는 하둡에 저장하고 비정형데이터는 DW와같은 시스템에 저장하는 형태

데이터레이크 하우스 2세대

오브젝트 스토리지 기반의 데이터레이크를 뜻합니다.

  • 다양한 데이터를 저장할 수 있는 오브젝트 스토리지를 사용해 진정한 데이터레이크를 구축했다고합니다.
    가장 유명한 모델로는 AWS S3가 되겠습니다.
    S3의 등장으로 많은 퍼블릭 클라우드에 올라가있는 솔루션 업체가 정통적인 데이터노드에 저장하는것이 아닌 데이터레이크에 있는 오브젝트 스토리지에 저장할 수 있는 모듈이 나오게 됐습니다.

자.. 이제 그 많은 데이터 어떻게 다룰 거야?

이 문제를 해결하기 위해 오브젝트 스토리지 + 초고성능 병렬파일 시스템 기반 데이터 레이크가 나오게 됩니다.

  • 쿠버네티스 환경 지원
  • GPU 직접 연결을 통한 효율적인 자원 활용을 지원
    이와 같은 메커니즘으로 수십 수백기가의 퍼포먼스를 낼 수 있다고 합니다.

HPC AI 최적화

  • 오브젝트 스토리지의 개방형 테이블 형식을 제공하는 Apache Iceberg등장으로 Spark등을 통해 테이블 데이터 조회 가능한 데이터 레이크하우스 구축
  • 오프젝트 스토리지를 데이터 노드로 활용하는 DW구축
  • 초고성능 병렬파일 시스템(HCSF) + GPU 기반의 HPC = 고성능 데이터 레이크하우스

이때 GPU 활용도에 대한 이해도도 중요해 집니다.

AI 데이터 파이프라인

데이터 사이언스 분들이 원본데이터에 대해서 모델에 전처리를 돌리고 새로운 모델에 대한 부분을 크로스체크하고... 그런 파이프라인을 지나갈때 엄청나게 많은 IO와 많은 리소스를 사용하게 됩니다. 그렇기 때문에 해당 작업을 수행하는 하드웨어는 성능이 굉장히 중요해 집니다. 이때 핵심은 위 파이프라인에서 생기는 메타데이터가 엄청나게 생기는데 이 메타데이터에 대한 관리와 헨들링이 빠르게 데이터 처리를 하는 핵심이 됩니다. 영상에서는 이러한 문제를 하기위해 메타데이터 또한 병렬처리를 한다고 합니다. 퍼포먼스를 위해서 하드웨어의 활용도를 더 높여서 처리하는 방식을 사용하는 것 같습니다.

출처 - https://www.youtube.com/watch?v=cQ66ghYK6Gw

'데이터 분석' 카테고리의 다른 글

벡터와 시리즈 기초 개념  (0) 2023.04.04