Η αυτοματοποιημένη προβολή της εικόνας της Google και το κλειδί για το τεχνητό "όραμα"

Δεν είναι μυστικό ότι η Google άρχισε να δραστηριοποιείται περισσότερο στην έρευνα τα τελευταία χρόνια, ειδικά αφού αναδιοργανώθηκε σημαντικά το 2015. Στις 22 Σεπτεμβρίου 2016 ανακοίνωσε την ανοικτή έκδοση ενός λογισμικού που μπορεί να εντοπίσει τα αντικείμενα και ρύθμιση μιας εικόνας για να δημιουργήσει αυτόματα μια λεζάντα που την περιγράφει. Φυσικά, δεν έχει το ίδιο επίπεδο δημιουργικότητας που κάνουν τα ανθρώπινα όντα για τη δημιουργία της πεζής μέσα στους τίτλους, αλλά ο κωδικοποιητής εικόνας που είναι γνωστός ως Inception V3 θα έπρεπε να έχει τραβήξει την προσοχή για λόγους που ξεπερνούν την επιφανειακή «ματιά στους τίτλους μπορεί να κάνει "κίνητρο. Λογισμικό όπως αυτό, στην πραγματικότητα, μπορεί να είναι ένας σκαλοπάτι για κάτι μεγαλύτερο στο δρόμο προς πιο προηγμένη τεχνητή νοημοσύνη.

Τα μάτια μπορούν να δουν, αλλά η νοημοσύνη "αντιλαμβάνεται"

Η τεχνητή θέα υπήρξε μαζί μας για περισσότερο από έναν αιώνα. Οτιδήποτε με μια φωτογραφική μηχανή μπορεί να δει. Είναι ένα πολύ βασικό είδος πράγματος. Αλλά ακόμη και ένας τυφλός μπορεί να ξεπεράσει την κατανόηση της φωτογραφικής μηχανής για το τι βλέπει. Μέχρι πρόσφατα, οι υπολογιστές δεν μπόρεσαν εύκολα και με ακρίβεια να ονομάσουν τα αντικείμενα που βρέθηκαν σε εικόνες χωρίς πολύ συγκεκριμένες παραμέτρους. Για να πούμε αληθινά ότι ένα τεχνητό αντικείμενο έχει «όραμα» θα σήμαινε ότι τουλάχιστον έχει μια συγκεκριμένη ικανότητα να καθορίζει αυτό που κοιτάζει, αντί απλά να το κοιτάζει χωρίς να συγκεντρώνει κανένα πλαίσιο. Με αυτόν τον τρόπο, η συσκευή θα μπορούσε ενδεχομένως να αντιδράσει στο περιβάλλον της με βάση την όραση, όπως και εμείς. Η αντίληψη είναι απόλυτη αναγκαιότητα. Χωρίς αυτό, κάθε νόημα που έχουμε είναι άχρηστο.

Αντίληψη μέσω αυτόματου υπολογισμού εικόνας

Παρόλο που γενικά πιστεύουμε ότι κάθε εικόνα αξίζει χίλιες λέξεις, το Inception V3 δεν συμμερίζεται κατ 'ανάγκη αυτή τη γνώμη. Το αυτόματο λογισμικό υποτίμησης εικόνας έχει πολύ λίγα πράγματα να πει για αυτό που βλέπει, αλλά τουλάχιστον έχει μια βασική συγκεκριμένη κατανόηση του τι περιέχεται στο πλαίσιο που παρουσιάζεται σε αυτό.

Με αυτές τις στοιχειώδεις πληροφορίες έχουμε κάνει ένα βήμα προς την ικανότητα του λογισμικού να κατανοεί τα οπτικά ερεθίσματα. Η παροχή ενός ρομπότ σε αυτή τη δύναμη θα του επέτρεπε να αντιδρά σε τέτοια ερεθίσματα, φέρνοντας την νοημοσύνη του κάτω από το επίπεδο των πιο βασικών υδρόβιων ζώων. Αυτό μπορεί να μην ακούγεται πολύ, αλλά εάν ρίξετε μια ματιά στο πώς κάνουν τώρα τα ρομπότ (όταν δοκιμάζονται εκτός των εξαιρετικά περιοριστικών παραμέτρων τους), θα διαπιστώσετε ότι αυτό θα ήταν ένα άλμα σε νοημοσύνη σε σύγκριση με τον αμοιβαίο τρόπο με τον οποίο μπορούν να αντιληφθούν το δικό τους περιβάλλον.

Τι σημαίνει αυτό για AI (και γιατί είναι μακριά από τέλεια)

Το γεγονός ότι έχουμε τώρα λογισμικό που (με ακρίβεια 93 τοις εκατό) μπορεί να υποδηλώνει εικόνες σημαίνει ότι έχουμε ξεπεράσει κάπως το εμπόδιο του να πάρει τους υπολογιστές να έχουν νόημα για το περιβάλλον τους. Φυσικά, αυτό δεν σημαίνει ότι είμαστε πουθενά κοντά στο τελικό τμήμα. Αξίζει επίσης να σημειωθεί ότι το Inception V3 εκπαιδεύτηκε από ανθρώπους με την πάροδο του χρόνου και χρησιμοποιεί τις πληροφορίες που "έμαθε" για να αποκρυπτογραφήσει άλλες εικόνες. Για να έχουμε μια πραγματική κατανόηση του περιβάλλοντος κάποιου, πρέπει να είμαστε σε θέση να επιτύχουμε ένα πιο αφηρημένο επίπεδο αντίληψης. Είναι το πρόσωπο της εικόνας θυμωμένο; Είναι δύο άνθρωποι που αγωνίζονται; Ποια είναι η γυναίκα στο τραπέζι που κλαίει;

Τα παραπάνω ερωτήματα αντιπροσωπεύουν τα είδη των πραγμάτων που αναρωτιόμαστε όταν αντιμετωπίζουμε άλλα ανθρώπινα όντα. Είναι το είδος της αφηρημένης έρευνας που απαιτεί από εμάς να εξάγουμε περισσότερες πληροφορίες από ό, τι μπορεί να κάνει μια εικόνα που υπογραμμίζει doohickey. Ας μην ξεχνάμε ότι το κερασάκι στην τούρτα θέλουμε να αποκαλούμε μια συναισθηματική (ή "παράλογη") αντίδραση σε αυτό που βλέπουμε. Γι 'αυτό θεωρούμε λουλούδια όμορφα, αποχετευτικά αηδιαστικά και γαλλικά πατάτες νόστιμα. Είναι κάτι που εξακολουθούμε να αναρωτιέται κανείς αν θα πετύχουμε ποτέ σε επίπεδο μηχανής χωρίς να το κωδικοποιήσουμε. Η αλήθεια είναι ότι αυτό το είδος "ανθρώπινου" φαινομένου είναι πιθανόν αδύνατο χωρίς περιοριστικό προγραμματισμό. Φυσικά, αυτό δεν σημαίνει ότι δεν θα σταματήσουμε να προσπαθούμε. Είμαστε, τελικά, ανθρώπινοι .

Πιστεύετε ότι οι κυρίαρχοι ρομπότ μας θα μάθουν ποτέ να εκτιμούν την πολυπλοκότητα ενός ροδοπέταλου κάτω από ένα μικροσκόπιο; Πείτε μας σε ένα σχόλιο!