Stable Diffusion XL를 위한 최고의 그래픽카드 - 지포스 RTX 4060 Ti 16GB
By Stefani Tai|September 14,2023
Motherboards
,
Graphics Cards
,
Peripherals
,
Desktops
,
Monitors
,
Case & Components
지난 몇 달 동안 온라인에서 인공지능과 인공지능이 생성할 수 있는 콘텐츠에 대한 소셜 미디어 게시물, 뉴스 기사, 동영상을 보셨을 가능성이 높습니다. OpenAI의 아이디어인 ChatGPT가 가장 인기가 많습니다. 채팅 스타일의 인터페이스를 통해 사용자는 AI 모델과 상호 작용하여 질문하고, 작업을 수행하도록 지시하고, 코드를 작성하고, 심지어 문장, 단락 또는 전체 기사를 작성할 수도 있습니다!
ChatGPT와 같은 텍스트 기반 모델 외에도 프롬프트에 따라 이미지를 생성할 수 있는 보다 시각적인 형태의 AI 모델(예: 미드저니, 스테이블 디퓨전, DALL-E 등)도 급증하고 있습니다. 이러한 모델에 이와 같은 프롬프트를 기반으로 디지털 아트를 만들도록 요청할 수 있습니다:
Prompt:
우주 전함, 물체가 원자 입자로 분해됩니다. 시네마틱 샷 + 역동적 인 구도, 믿을 수 없을 정도로 섬세한, 선명하게, 세부 사항 + 복잡한 세부 사항 + 전문 조명, 영화 조명 + 35mm + 아나모픽 + 라이트룸 + 촬영 + 보케 + 렌즈 플레어 + 필름 입자 + HDR10 + 8K + Roger Deakins, ((영화)), 완벽한 구성, 초현실적, 매우 섬세한, 8k, 고품질, 트렌드 아트, 아트 스테이션 트렌드, 선명한 초점, 스튜디오 사진, 복잡한 디테일, 매우 섬세한
Negative Prompt:
(3D, 만화, 애니메이션, 스케치), (최악의 품질:2), (낮은 품질:2), (정상 품질:2), 낮은 해상도, 정상 품질, ((흑백)), ((회색조)), 나쁜 해부학, 시야 밖, 잘린, 추한, 변형, 돌연변이, ((젊은)), EasyNegative, 그림, 스케치, (최악의 품질: 2), (낮은 품질:2), (정상 품질:2), 저해상도, 정상 품질, ((흑백)), ((회색조)), 피부 반점, 여드름, 피부 잡티, 검버섯, 귀두, 여분의 손가락, 적은 손가락, (못생긴 눈, 기형 홍채, 기형 동공, 융합 입술 및 치아:1), (낮은 화질. 2), (세밀하지 않은 피부, 반 사실적, CG, 3D, 렌더링, 스케치, 만화, 그림, 애니메이션:1. 2), 텍스트, 클로즈업, 자르기, 프레임 밖, 최악의 품질, 낮은 품질, JPEG 아티팩트, 추한, 중복, 병적, 절단, 여분의 손가락, 돌연변이 손, 잘못 그린 손, 잘못 그린 얼굴, 돌연변이, 변형, 흐릿함, 탈수, 나쁜 해부학, 나쁜 비율, 여분의 팔다리, 복제된 얼굴, 변형, 심한 비율
이러한 강력한 도구에 대한 접근성이 높아지면서 업계 전체가 발칵 뒤집힌 것은 당연합니다. 예술, 그래픽, 글쓰기, 창의성 분야에서 인간을 완벽하게 모방할 수 있는 AI 모델은 아직 없지만, 많은 직업에서 그 영향력이 나타나기 시작했습니다.
그러나 AI가 생성한 콘텐츠는 다양한 주제에 대해 매우 자신 있게 틀릴 수 있기 때문에 아직은 일반적인 콘텐츠(텍스트, 코드 조각, 이미지 또는 그래픽)를 생성하는 버팀목으로만 사용되고 있습니다. 실제로 구글의 바드 AI 챗봇이 첫 데모에서 사실 오류를 범했습니다!
하지만 시간이 지날수록 그 유용성은 더욱 발전할 것입니다. 이미 이전 버전을 개선한 새로운 AI 모델의 출현을 목격할 수 있습니다.
VRAM 및 AI 모델: 얼마나 필요한가요?
오늘날 사용 가능한 일부 AI 도구는 오픈소스 특성상 사용자, 기업, 조직이 개인정보 보호나 보안에 대한 우려 없이 하드웨어에서 이러한 모델을 로컬로 호스팅할 수 있다는 점이 특징입니다.
대기업은 이러한 모델을 자체 호스팅할 인프라나 자금이 부족하지 않지만, AI를 활용하고자 하는 개인과 전문가는 어려움을 겪을 수 있습니다. AI 모델이 매우 느리거나 심지어 최신 하드웨어에서 완전히 지원되지 않는 이유 중 하나는 해당 모델에 필요한 VRAM 때문입니다.
Stable Diffusion XL 최소 요구 사항
그런 예로 Stability AI에서 새로 출시한 SDXL(Stable Diffusion XL) 모델을 들 수 있습니다. 이 회사는 이를 지금까지 출시된 제품 중 "가장 진보된" 제품이라고 설명합니다.
이제 더 짧은 프롬프트를 사용하여 개선된 얼굴, 가독성 높은 텍스트, 미학적으로 더 아름다운 아트를 생성할 수 있습니다. 하지만 이러한 향상된 기능에는 하드웨어 비용, 특히 VRAM 요구 사항과 GPU 성능이 필요합니다.
그렇다면 집에서도 SDXL의 향상된 기능을 즐기려면 정확히 무엇이 필요할까요?
먼저, Stability AI는 이 작업에 Nvidia 그래픽 카드를 권장하므로 현재 및 이전 세대 제품을 사용하여 기대할 수 있는 성능을 더 잘 이해하겠습니다. Stability AI가 발표한 보도 자료에서는 최소 8GB의 VRAM을 요구하지만, 저희는 더 높은 용량의 VRAM이 어떤 영향을 미치는지 살펴보고자 했습니다.
단순히 최소값에 맞추기만 해도(또는 아주 약간만 초과해도) 성능에 큰 영향을 미치나요, 아니면 더 강력한 GPU가 VRAM 부족을 상쇄할 수 있을까요?
이에 대한 해답을 찾기 위해, 저희 실험실에서 현세대 및 이전 세대 하드웨어에서 어떻게 작동하는지 살펴보았습니다. 이 데이터를 통해 다음 그래픽 카드를 구매할 때 보다 현명한 구매 결정을 내릴 수 있을 것입니다.
지포스 그래픽카드의 SDXL GPU 벤치마크
테스트에는 RTX 4060 Ti 16GB, RTX 3080 10GB, RTX 3060 12GB 그래픽 카드가 사용됩니다.
먼저 기본 매개변수를 사용하여 간단한 아트 컴포지션으로 시작하여 GPU에 좋은 운동을 제공하겠습니다.
1024 x 1024
VRAM Size(GB)
Speed(sec.)
RTX 4060 Ti 16G
11.4 GB
16.0 s
RTX 3080 10G
9.7 GB
65.1 s
RTX 3060 12G
11.7 GB
27.2 s
일반적으로 게임 벤치마크에만 집중하는 사람들에게는 놀라운 결과일 수 있습니다.
16GB VRAM 버퍼를 갖춘 RTX 4060 Ti 16GB는 16초의 빠른 실행 시간으로 다른 제품들을 쉽게 앞섰습니다. 그 뒤를 이어 12GB VRAM을 탑재한 RTX 3060 12GB가 27.2초의 시간을 기록했습니다. 훌륭하지는 않지만 여전히 꽤 괜찮은 결과입니다.
안타깝게도 RTX 3080에는 VRAM이 없기 때문에 65.1초라는 매우 느린 시간으로 인해 원시 마력이 쓸모없게 됩니다! 따라서 최신 RTX 4060 Ti 16GB는 약 4배 빠른 이미지 생성 시간으로 이전 세대 하이엔드 RTX 3080을 압도합니다.
SDXL 벤치마크: 1024x1024 + LoRA
한 번 더 도전해볼까요? 다음 테스트에서는 LoRA를 시도할 예정입니다.
LoRA or Low-Rank Adaptation 기술을 사용하면 특정 아트 스타일이나 캐릭터에 대한 안정적 확산 모델을 미세 조정할 수 있습니다. 하지만 이 경우 VRAM에 더 많은 부담을 주므로 경쟁사의 성능을 확인해 보겠습니다.
LoRA를 사용하여 '사이버걸' 작품을 생성하여 VRAM이 충분한 그래픽 카드와 그렇지 않은 그래픽 카드 간의 차이가 얼마나 큰지 알아봅시다.
1024 x 1024 + LoRA
VRAM Size(GB)
Speed(sec.)
RTX 4060 Ti 16G
15.5 GB
17.0 s
RTX 3080 10G
9.6 GB
98.8 s
RTX 3060 12G
11.5 GB
26.8 s
여기서 RTX 3080은 더 많은 VRAM을 탑재한 60급 카드보다 쉽게 앞섰습니다. RTX 4060 Ti 16GB는 이미지를 생성하는 데 17초밖에 걸리지 않아 다시 한 번 1위를 차지한 반면, RTX 3080은 98.8초로 뒤처졌습니다.
SDXL 벤치마크: 1024x1024 + LoRA + ControlNet
이제 컨트롤넷을 사용하여 60등급 카드에 몇 가지 조건을 추가하여 조금 더 까다롭게 만들어 보겠습니다.
먼저, 컨트롤넷이란 정확히 무엇인가요? 간단히 말해, 스테이블 디퓨전 컴포지션(출력)을 추가로 제어하고 미세 조정하는 데 사용할 수 있는 신경망 모델입니다. 이 모델을 사용하면 출력에 더 많은 조건을 추가하여 원하는 디자인에 대한 명확한 참조를 스테이블 디퓨전에게 전달하고, 필요한 것과 더 가깝게 일치하도록 결과를 더욱 세밀하게 조정할 수 있습니다.
이제 경쟁은 매우 박빙으로, RTX 3080이 RTX 4060 Ti 16GB와의 격차를 거의 좁히고 마침내 RTX 3060 12GB를 완전히 앞질렀습니다. 하지만 컴퓨팅 부하가 많은 이 시나리오에서도 RTX 4060 Ti 16GB가 근소한 차이로 1위를 차지했습니다.
SDXL 벤치마크: 1024x1024 + Upscaling
이제 업스케일링에 도전해 보겠습니다. 60급 경쟁 제품들이 RTX 3080의 상당한 업스케일링 마력을 따라잡을 수 있을까요? 이 테스트에서는 좀 더 이해하기 쉬운 약어인 R-ESRGAN 4x+로 알려진 실제 강화된 초해상도 생성 적대적 네트워크를 사용합니다.
1024 x 1024 upscale x2
VRAM Size(GB)
Speed(sec.)
RTX 4060 Ti 16G
10.8 GB
5.5 s
RTX 3080 10G
10 GB
8.6 s
RTX 3060 12G
10.4 GB
7.8 s
1024x1024 이미지를 2배로 업스케일링할 경우, RTX 4060 Ti 16GB는 RTX 3080 및 3060 12GB를 모두 능가하며, 완료하는 데 5.5초밖에 걸리지 않아 RTX 3080 10GB보다 36% 더 빠르게 이미지를 생성할 수 있습니다.
1024 x 1024 upscale x4
VRAM Size(GB)
Speed(sec.)
RTX 4060 Ti 16G
10.5 GB
10 s
RTX 3080 10G
10 GB
13 s
RTX 3060 12G
10.4 GB
12.3 s
RTX 4060 Ti 16GB와 경쟁 제품 간의 격차는 R-ESRGAN 4x+ 업스케일러를 사용한 4배 업스케일링 작업으로 더욱 좁혀집니다. 이제 RTX 4060 Ti 16GB는 RTX 3080 10GB보다 작업을 완료하는 데 23% 더 빠르며, RTX 3060 12GB는 이제 RTX 3080을 턱밑까지 추격하고 있습니다. 그럼에도 불구하고 RTX 4060 Ti 16GB가 여전히 선두를 유지하고 있습니다.
이 마지막 몇 가지 결과에서 볼 수 있듯이, 업스케일링 작업량이 많을수록 RTX 3080 인치는 60 클래스 경쟁 제품에 가까워집니다.
Stable Diffusion XL를 위한 최고의 그래픽카드
Stable Diffusion XL과 같은 AI 모델의 경우, 충분한 VRAM이 중요합니다. 위의 테스트를 통해 RTX 4060 Ti 16GB가 현재 구매할 수 있는 AI 이미지 생성용 그래픽 카드 중 최고의 가성비를 자랑하는 그래픽 카드임을 쉽게 알 수 있습니다.