Σχέδιο Paragon: Βοηθός εργασίας βαθιάς μάθησης

Με Adam | Ιούλιος 26, 2023

Όσον αφορά την παραγωγικότητα, οι μάστορες έχουν χρησιμοποιήσει τους μικροεπεξεργαστές και τους μικροελεγκτές με διάφορους τρόπους.

Ωστόσο, αυτός ο βοηθός εργασίας βαθιάς μάθησης βρίσκεται στην κορυφή της λίστας ως ένα από τα πιο δημιουργικά έργα που έχουμε δει εδώ και πολύ καιρό!

Αυτό το έργο, που αναπτύχθηκε από τον Benjamin στο WIZnet Makers, τραβάει φωτογραφίες κάθε 5 δευτερόλεπτα και στη συνέχεια τις διαβάζει μέσω τεχνητής νοημοσύνης για να αναγνωρίσει μοτίβα εργασίας.

Ο Μπέντζαμιν έχει εκπαιδεύσει το μοντέλο να αναγνωρίζει μερικές από τις πολλές καταστάσεις που όλοι μας αντιμετωπίζουμε όταν εργαζόμαστε. Αναγνωρίζει πότε αισθάνεστε φυσιολογικά ή νυσταγμένοι ή αν χασμουριέστε. Το πιο σημαντικό είναι ότι, σαρώνοντας το πρόσωπό σας, μπορεί να σας πει αν είστε αφηρημένοι και ακόμη και αν χρησιμοποιείτε το κινητό σας τηλέφωνο.

Με όλες αυτές τις πληροφορίες, θα είστε σε θέση να προσδιορίσετε πόσο παραγωγικοί είστε πραγματικά!

Υλικό

Για το Hardware, ο Benjamin πήγε με έναν τροποποιημένο κλώνο Raspberry Pi Pico που κυκλοφόρησε η WIZnet μαζί με ένα Arducam.

Ωστόσο, μπορείτε σίγουρα να χρησιμοποιήσετε ένα τυπικό Raspberry Pi Pico με μια άλλη κάμερα, αν χρειαστεί.

Επιπλέον, ανάλογα με το πόσο γρήγορα θέλετε να τρέχει αυτό, μπορείτε να σκεφτείτε να ελέγξετε τι είναι ένα Google Coral θα μπορούσε να κάνει σε αυτόν τον αγώνα με αστραπιαία ταχύτητα!

Αλλά με έναν μικροελεγκτή και μια κάμερα, θα έχετε σίγουρα αρκετά για να αναπτύξετε μια τροποποιημένη μορφή αυτού του έργου, τουλάχιστον.

Κατά την εμπειρία μου, αυτό είναι που συχνά κάνει κάτι τέτοιο τόσο συναρπαστικό: η ανάμειξη και το ταίριασμα υλικού μπορεί συχνά να οδηγήσει σε νέα αποτελέσματα και νέα έργα!

Λογισμικό

Βασιζόμενος στο CircuitPython, ο Benjamin είχε την καλοσύνη να δημοσιεύσει τον κώδικα αυτού του έργου στο GitHub. Έτσι, μόλις εγκαταστήσετε αυτόν τον κώδικα στο Pico σας, τα πράγματα θα πρέπει να είναι έτοιμα και να λειτουργούν.

Ο κώδικας βασίζεται στο νανομοντέλο του Ultralytics YOLOv8, το οποίο είναι ένα "μοντέλο ανίχνευσης αντικειμένων και τμηματοποίησης εικόνας σε πραγματικό χρόνο". Αν ενδιαφέρεστε για τη δομή του μοντέλου YOLOv8 γενικότερα, μπορείτε να τη βρείτε εδώ.

Εν τω μεταξύ, αν ενδιαφέρεστε να διαβάσετε περισσότερα για τη βαθιά μάθηση, ο συνάδελφός μου Nathan έχει γράψει μια εξαιρετική ανάρτηση σχετικά με αυτό εδώ.

Με το νανομοντέλο του YOLOv8, ο Benjamin τρέχει τα πάντα μέσω μιας εφαρμογής Flask για να βγάλει τις πληροφορίες σε πραγματικό χρόνο καθώς παρακολουθεί τη ροή εργασίας κάποιου.

Δοκιμάστε το μόνοι σας και δείτε αν μπορείτε να εντοπίσετε τα δικά σας πρότυπα εργασίας!

Τουλάχιστον αυτός ο βοηθός εργασίας βαθιάς μάθησης θα βοηθήσει να απαντηθεί το ερώτημα της ζωής μου: Πόσες φορές χασμουριέμαι πριν το τρίτο φλιτζάνι καφέ μου;

Μπορείτε να βρείτε περισσότερα έργα Paragon εδώ.

Τι θα κάνατε με έναν τέτοιο βοηθό εργασίας;