Απίστευτο εργαλείο A.I. lip-sync βάζει εικόνα στη φωνή!

Περίληψη: Δεν θα πιστεύεις τα μάτια σου: το νέο επίτευγμα τεχνητής νοημοσύνης φτιάχνει βίντεο ανθρώπων σχεδόν από...

Δεν θα πιστεύεις τα μάτια σου: το νέο επίτευγμα τεχνητής νοημοσύνης φτιάχνει βίντεο ανθρώπων σχεδόν από το τίποτα! To ότι η τεχνητή νοημοσύνη πρόκειται να φέρει τα πάνω κάτω στην καθημερινότητά μας, θα το έχεις διαβάσει σίγουρα πολλές φορές. Από τις ψηφιακές βοηθούς που θα φροντίζουν τις ανάγκες του σπιτιού πριν καλά καλά αντιληφθείς ότι χρειάζεσαι κάτι, μέχρι τα αυτόνομα οχήματα που θα σε πηγαίνουν ξεκούραστο και ατσαλάκωτο σε όποιον προορισμό επιθυμείς, το μέλλον ακούγεται τουλάχιστον συναρπαστικό και βγαλμένο από ταινία επιστημονικής φαντασίας. Και μη νομίζεις ότι οι εφαρμογές της A.I. θα περιορίζονται μόνο στην εξυπηρέτησή μας, αφού υπάρχουν πολλοί τομείς που συχνά δεν τους φαντάζεται κανείς, που θα ωφεληθούν από την εξάπλωση της τεχνητής νοημοσύνης. Ανάμεσα σε αυτές βρίσκεται και η δημιουργία βίντεο και μάλιστα σχεδόν από το μηδέν. Πιο συγκεκριμένα, μία ομάδα ερευνητών από το πανεπιστήμιο της Washington έχει αναπτύξει ένα εργαλείο που εκμεταλλεύεται την ισχύ της τεχνητής νοημοσύνης για να δημιουργήσει ρεαλιστικά βίντεο ομιλιών, χρησιμοποιώντας ως πηγή ένα απλό αρχείο ήχου. Μάλιστα, για να επιδείξουν τις δυνατότητες της εν λόγω τεχνολογίας, οι ερευνητές δημιούργησαν ένα τεχνητό βίντεο, στο οποίο είχαν τον πρώην πρόεδρο των Η.Π.Α., Barrack Obama, να βγάζει μία ομιλία, που μπορείς να δεις από κάτω.Αν τώρα φοβάσαι ότι η εν λόγω τεχνολογία θα χρησιμοποιηθεί για την παραγωγή ψεύτικων ειδήσεων, μάλλον βλέπεις πολύ Black Mirror. Σύμφωνα με τους επιστήμονες, η τεχνολογία έχει αναπτυχθεί εν μέρει για τον εντοπισμό και την αναγνώριση των ψεύτικων βίντεο, ενώ οι βασικοί της στόχοι είναι από τη μία η βελτίωση των υπηρεσιών video conferencing, ακόμα και μέσα από εφαρμογές όπως το Skype και το Google Hangouts, και από την άλλη η εκπαίδευση, καθώς θα γίνει εφικτή η δημιουργία υλικού βίντεο από ιστορικές προσωπικότητες σε περιβάλλον virtual reality. Περιληπτικά, η τεχνολογία αξιοποιεί νευρωνικά δίκτυα, τα οποία εκπαιδεύονται παρακολουθώντας πολλές ώρες βίντεο, προκειμένου να μάθουν τους ήχους που ταυτίζονται με συγκεκριμένες κινήσεις των χειλιών και μορφασμούς του προσώπου. Στη συνέχεια -και με βάση το αρχείο ήχου που λειτουργεί ως πηγή- δημιουργείται ένα τεχνητό στόμα το οποίο μιξάρεται με υπάρχον υλικό βίντεο από το συγκεκριμένο πρόσωπο και, τέλος, συγχρονίζεται ο ήχος με την εικόνα για να παραχθεί το τελικό βίντεο.Aν σε ενδιαφέρει να εμβαθύνεις στη συγκεκριμένη τεχνολογία, μπορείς να διαβάσεις εδώ όλο το paper, όπως παρουσιάστηκε πέρσι το καλοκαίρι στην SIGGRAPH 2017.