Опробовал два десятка нейросетей и интерфейсов к ним для генерации изображений. Пока что половина неплохо подошла к тому, чтобы сгенерировать ЧТО-ТО, имеющее какие-то смысловые пересечения с запросом. Но заставить сгенерировать сложную сцену со множеством элементов (не случайных, а именно желаемых) не удалось ни одну. Большиство сайтов - это обертки к Stable Diffusion разных версий.
Основные проблемы:
1) игнорирование части терминов, когда в запросе много составляющих. Если нужно разместить на сцене более трех объектов, то чаще всего не помогает ни увеличение cfg level, ни игры со скобками и относительными весами в запросах, ни дублирование терминов в запросе.
2) артефакты на людях. с ними боле-менее справляются сети, заточенные на nude, но там в триал версиях вообще ничего нельзя настроить.
3) в половине интерфейсов нельзя поменять размер изображения или передать сгенерированную картинку на следующий раунд генерации/редактирования.
4) и вообще, мало формализованных настроек контента
5) "геморрой" с оплатой из России
Критерии отбора сайтов-интерфейсов:
1) используемые генераторы (на одних - десятки вариантов, на других только Stable Diffusion)
2) наличие фильтра на стиль изображения (фотореализм, картина маслом, анимэ, и т.д.)
3) наличие базовых настроек (уровень cfg, число шагов, формат холста)
4) наличие возможности upscale (получение понравившейся картинки в разрешении хотя бы 3K; без этой возможности интерфейс к NN годится только для развлечения)
5) наличие функции uncrop (она же outpaint)
6) функция img2img, а не только txt2img (желательно с опцией балансировки между source image и prompt text)
7) retouch изображения (edit generation). C помощью фильтров и предустановок - нет ни у кого. С помощью текста есть у нескольких, но работает отвратительно.
#нейросеть #GAI #imagegeneration #generativeAI