편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 | 당신의 편집 | ||
1번째 줄: | 1번째 줄: | ||
'''Stable Diffusion'''(스테이블 디퓨전)은 Stability AI에서 [[오픈 소스]]로 배포한 'text to image' [[인공지능]] 모델이다. [[글자]]를 [[그림]]으로 치환해주는 소프트웨어이다. | '''Stable Diffusion'''(스테이블 디퓨전)은 Stability AI에서 [[오픈 소스]]로 배포한 'text to image' [[인공지능]] 모델이다. [[글자]]를 [[그림]]으로 치환해주는 소프트웨어이다. | ||
== 개요 == | == 개요 == | ||
11번째 줄: | 11번째 줄: | ||
간단히 말해서 유저가 입력한 내용(TEXT)를 프로그램이 알아 들을 수 있는 언어로 치환하고(Token), 이를 받아들인 UNet은 토큰이 생성한 무작위의 노이즈(Noise)를 뭉쳐서(Denoise) 그림으로 내놓는다. 이 노이즈와 디노이즈 과정을 연달아 수행하면서 끝에는 유저가 입력한 내용의 그림을 만들어 주는 것이다. 여기서 그림에 색채나 효과를 주는 것이 vae의 역할인 것이다. | 간단히 말해서 유저가 입력한 내용(TEXT)를 프로그램이 알아 들을 수 있는 언어로 치환하고(Token), 이를 받아들인 UNet은 토큰이 생성한 무작위의 노이즈(Noise)를 뭉쳐서(Denoise) 그림으로 내놓는다. 이 노이즈와 디노이즈 과정을 연달아 수행하면서 끝에는 유저가 입력한 내용의 그림을 만들어 주는 것이다. 여기서 그림에 색채나 효과를 주는 것이 vae의 역할인 것이다. | ||
그동안의 인공지능은 넓으면 넓을수록 리소스를 과하게 그리고 누적시켜 이용해서 가정용 컴퓨터로는 어림도 없는 성능을 요구했다면 스테이블 디퓨전은 작은 공간에서 노이즈와 디노이즈를 처리하므로 리소스를 크게 먹지 않는다. 물론 리소스를 많이 제공 | 그동안의 인공지능은 넓으면 넓을수록 리소스를 과하게 그리고 누적시켜 이용해서 가정용 컴퓨터로는 어림도 없는 성능을 요구했다면 스테이블 디퓨전은 작은 공간에서 노이즈와 디노이즈를 처리하므로 리소스를 크게 먹지 않는다. 물론 리소스를 많이 제공 할수록 내용을 그림으로 치환하는 속도는 빨라지고 그렇지 못한 컴퓨터에서는 느려지는 건 당연한 일.<ref>이를테면 1060 3GB에선 약 2분 걸리는 작업이 3060에선 5~12초 내로 [[도장]] 찍듯 빠르게 작업한다.</ref> 또한 그려야 하는 그림의 크기가 클 수록 당연히 필요한 리소스의 양은 늘어난다. 간단하게 말하면 256*256 크기의 그림과 1024*1024 크기의 그림을 그리는 속도는 4배까진 아니어도 분명 속도의 차이가 있다. 또 이런 크기 때문에 특정 모델이나 작업을 수행하는 방법 등에서 문제가 생겨서 없던 문제가 생기기도 한다.<ref>그래서 일부 모델은 최대 크기, 작업 방법, 추천 vae를 명시해두는 편이다.</ref> | ||
== 사용법 == | == 사용법 == |