Google-ის ახალი ხელოვნური ინტელექტი უხარისხო ფოტოებს ადიდებს და ხარისხს უმატებს

Google-ის ახალი ხელოვნური ინტელექტი უხარისხო ფოტოებს ადიდებს და ხარისხს უმატებს — #1tvმეცნიერება

13:45, 07.09.2021

ალბათ გინახავთ სამეცნიერო ფანტასტიკის რაიმე ფილმი, რომელშიც მთავარი გმირი გამოსახულებას ადიდებს და მიღებულ შედეგს ხარისხს უმატებს — ჩნდება სახე, სანომრე ნიშანი ან რაიმე სხვა საკვანძო დეტალი. სწორედ ამ მოუხელთებელი ამოცანის შესრულება შეძლო გუგლის ახალმა ხელოვნურმა ინტელექტმა, რომელიც ე. წ. დიფუზიურ მოდელებს ეფუძნება.

შესასრულებლად ძალიან რთული პროცესია, რადგან სურათს ემატება ის დეტალები, რაც კამერამ ვერ გადაიღო; ამისათვის კი პროგრამა იყენებს სუპერჭკვიან მიხვედრილობას, რაც სხვა, მსგავსი გამოსახულების მქონე ფოტოებს ეფუძნება.

ამ მეთოდს გუგლი ბუნებრივი გამოსახულების სინთეზს უწოდებს და ამ კონკრეტულ შემთხვევაში, საქმე ეხება ფოტოს სუპერ-რეზოლუციას. იღებთ პატარა, გაბლარულ, პიქსელებად გადღაბნილ ფოტოს, საბოლოოდ კი იღებთ მკვეთრ, სუფთა, ბუნებრივი იერის სურათს. შეიძლება ის ორიგინალს ზუსტად არ ემთხვეოდეს, მაგრამ ადამიანის თვალისთვის რეალურთან ძალიან ახლოს არის.

ამ საქმისთვის გუგლმა ხელოვნური ინტელექტის ორი ახალი ხელსაწყო წარმოადგინა. პირველს SR3 ეწოდება, ანუ სუპერ-რეზოლუცია განმეორებადი დამუშავების გზით (Super-Resolution via Repeated Refinement); ის სურათს „ხმაურს“ ან არაპროგნოზირებადობას უმატებს, შემდეგ კი პროცესს უკუაქცევს — დაახლოებით ისე, როგორც ფოტომემონტაჟე ცდილობს თქვენი ფოტოების გამკვეთრებას.

„დიფუზიური მოდელები საწვრთნელ მონაცემებს ამახინჯებს, რადგან თანდათან უმატებს გაუსის ხმაურის, მონაცემებში დეტალებს ნელ-ნელა იქამდე შლის, ვიდრე ის სუფთა „ხმაური“ გახდება, შემდეგ კი ნერვულ ქსელს წვრთნის, რომ დამახინჯების ეს პროცესი უკან შეაბრუნოს“, — განმარტავენ Google Research-ის მკვლევარი ჯონათან ჰო და პროგრამული უზრუნველყოფის ინჟინერი ჩიტვან საჰარია.

ფოტოებისა და მანქანური სწავლების ვრცელ მონაცემთა ბაზაზე დაყრდნობით ჩატარებულ ალბათობის გამოთვლებზე დაყრდნობით, SR3-ს შეუძლია გაითვალისწინოს, როგორი შეიძლება ყოფილიყო დაბალი რეზოლუციის გაბლარული ფოტოს სრული რეზოლუციის მქონე ვერსია. უფრო მეტი დეტალი შეგიძლიათ წაიკითხოთ გუგლის მიერ arXiv-ზე გამოქვეყნებულ პუბლიკაციაში.

მეორე ხელსაწყოა CDM, ანი კასკადური დიფუზიური მოდელები (Cascaded Diffusion Models). გუგლი მას აღწერს, როგორც „მილსადენებს“, რომლებშიც დიფუზიური მოდელები, მათ შორის SR3-იც შეიძლება მიიმართოს სურათის მაღალი ხარისხის რეზოლუციის განახლებებისკენ. ის ხარისხის გაუმჯობესების მოდელებს იღებს და მისგან უფრო დიდ სურათებს ქმნის. გუგლი ამ პუბლიკაციასაც აქვეყნებს.

გუგლის განცხადებით, ხარისხის გაუმჯობესების სხვადასხვა მოდელის სხვადასხვა რეზოლუციაზე გამოყენების გზით, CDM მეთოდს შეუძლია კონკურენცია გაუწიოს რეზოლუციის მომატების სხვა მეთოდებს. ხელოვნური ინტელექტის ახალი ძრავა ImageNet-ზე გაიტესტა, სამუშაო ფოტოების გიგანტურ მონაცემთა ბაზაზე, რომელსაც ძირითადად ვიზუალურ ობიექტთა ამოცნობის კვლევებში იყენებენ.

SR3-ისა და CDM-ის საბოლოო შედეგები შთამბეჭდავია. 50 მოხალისეზე ჩატარებულ სტანდარტულ ტესტში, SR3-ის მიერ დამუშავებული ადამიანის სახის ფოტოები რეალურისგან დაახლოებით 50 პროცენტ შემთხვევაში ცდებოდა. ალგორითმი ნამდვილად შეგვიძლია ბრწყინვალედ მივიჩნიოთ, თუ მას 50-პროცენტიანი მაჩვენებელი აქვს.

აუცილებელია აღინიშნოს, რომ ხარისხმომატებული ფოტოები არ გახლავთ ორიგინალებთან ზუსტი დამთხვევა და წარმოადგენს მოწინავე ალბათობის მათემატიკაზე დაფუძნებით, დიდი სიფრთხილით ჩატარებულ სიმულაციებს.

გუგლის განცხადებით, დიფუზიური მიდგომა უკეთეს შედეგებს იძლევა, ვიდრე ალტერნატიული მეთოდები, მათ შორის GAN ქსელები, რომლებიც შედეგების დასახვეწად ერთმანეთს უპირისპირებს ორ ნერვულ ქსელს.

ახალი ხელოვნური ინტელექტისა და მასთან დაკავშირებული ტექნოლოგიებისგან გუგლი გაცილებით მეტს გვპირდება — არა მხოლოდ სახისა და სხვა ბუნებრივი ობიექტების სურათების ხარისხის გაუმჯობესების თვალსაზრისით, არამედ ალბათობის მოდელირების სხვა მიმართულებებშიც.

მომზადებულია ScienceAlert-ის მიხედვით.

ავტორი - მიხეილ ჭაბუკაშვილი

ტექნოლოგიები