Νέα δεδομένα τόσο σε επίπεδο αποτελεσματικότητας όσο και προσαρμοστικότητας αποκαλύπτει μελέτη της DeepSeek που συνυπογράφη ο CEO της εταιρίας, καθώς αποδεικνύει την εκθετική αύξηση επεξεργαστικής δυνατότητας χωρίς την αντίστοιχη αύξηση υπολογιστικών απαιτήσεων και ενεργειακής κατανάλωσης.
Τεχνική μελέτη της DeepSeek που δημοσιεύθηκε πρόσφατα, με συνυπογράφοντα τον ιδρυτή και διευθύνοντα σύμβουλο της εταιρίας Λιανγκ Γουενφένγκ, χαρακτηρίζεται από αρκετούς ως καταλύτης εξελίξεων στην ανάπτυξη μοντέλων τεχνητής νοημοσύνης, καθώς ενδέχεται να οδηγήσει σε βελτιώσεις στη θεμελιώδη αρχιτεκτονική της μηχανικής μάθησης.
Το κεντρικό θέμα της μελέτης, οι Manifold-Constrained Hyper-Connections (mHC), συνιστά βελτίωση των συμβατικών υπερ-συνδέσεων στα υπολειμματικά δίκτυα (Residual Networks – ResNet), έναν βασικό μηχανισμό πάνω στον οποίο στηρίζονται τα μεγάλα γλωσσικά μοντέλα (LLMs). Η προσέγγιση αυτή αναδεικνύει τη συνεχή προσπάθεια της κινεζικής start-up τεχνητής νοημοσύνης να εκπαιδεύει ισχυρά μοντέλα με περιορισμένους υπολογιστικούς πόρους.
Στη μελέτη, ομάδα 19 ερευνητών της DeepSeek αναφέρει ότι δοκίμασε την αρχιτεκτονική mHC σε μοντέλα με 3 δισεκατομμύρια, 9 δισεκατομμύρια και 27 δισεκατομμύρια παραμέτρους και διαπίστωσε ότι αυτή κλιμακώνεται χωρίς να προσθέτει σημαντικό υπολογιστικό φορτίο.
Η δημοσίευση της μελέτης, την 1η Ιανουαρίου, προκάλεσε άμεσο ενδιαφέρον και συζήτηση στην κοινότητα των προγραμματιστών, παρά τον υψηλό βαθμό τεχνικής πολυπλοκότητας του περιεχομένου της.
Ο Κουάν Λονγκ, καθηγητής στο Πανεπιστήμιο Επιστήμης και Τεχνολογίας του Χονγκ Κονγκ, χαρακτήρισε τα νέα ευρήματα «πολύ σημαντικά για την αρχιτεκτονική των transformers που προορίζονται για LLMs». Όπως σημείωσε, είναι «πολύ ενθουσιασμένος που βλέπει τη σημαντική βελτιστοποίηση από τη DeepSeek, η οποία έχει ήδη φέρει επανάσταση στην αποδοτικότητα των LLMs».
Η μελέτη δημοσιεύεται σε μια περίοδο κατά την οποία οι περισσότερες start-ups τεχνητής νοημοσύνης επικεντρώνονται στη μετατροπή των δυνατοτήτων των LLMs σε agents και εμπορικά προϊόντα. Η DeepSeek, που λειτουργεί ως παράπλευρο εγχείρημα της εταιρίας ποσοτικών συναλλαγών του Λιανγκ, ακολουθεί διαφορετική πορεία και επιδιώκει βελτιώσεις στους βασικούς τεχνικούς μηχανισμούς με τους οποίους οι μηχανές μαθαίνουν από τα δεδομένα.
Η αρχιτεκτονική ResNet, που αναπτύχθηκε πριν από μία δεκαετία από τέσσερις Κινέζους ερευνητές στο Microsoft Research Asia, μεταξύ των οποίων ο επιστήμονας υπολογιστών Χε Καϊμίνγκ, επιτρέπει την αποτελεσματική μηχανική μάθηση νευρωνικών δικτύων, καθώς επιλύει το πρόβλημα της μείωσης των σφαλμάτων εκπαίδευσης κατά τη διέλευση από πολλαπλά επίπεδα.
Η σχετική μελέτη για το ResNet έλαβε το βραβείο Καλύτερης Μελέτης στο συνέδριο του Ινστιτούτου Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικών (IEEE) το 2016 και αναδείχθηκε ως η πιο πολυαναφερόμενη επιστημονική εργασία του 21ου αιώνα, σύμφωνα με έκθεση του βρετανικού επιστημονικού περιοδικού Nature το 2025.
Το 2024, η ByteDance παρουσίασε τις Hyper-Connections (HC), μια εναλλακτική αρχιτεκτονική που επεκτείνει ένα ενιαίο υπολειμματικό ρεύμα σε πολυρρευματική παράλληλη αρχιτεκτονική, επιταχύνοντας τη μηχανική μάθηση σε μοντέλα που βασίζονται στη λεγόμενη αρχιτεκτονική mixture-of-experts.
Ωστόσο, όπως επισημαίνει η μελέτη της DeepSeek, οι συμβατικές υπερ-συνδέσεις οδηγούν εύκολα σε «σοβαρή αστάθεια κατά την εκπαίδευση». Για τον λόγο αυτό, η εταιρία σχεδίασε τις mHC ώστε να σταθεροποιεί την αρχιτεκτονική, προβάλλοντας συγκεκριμένα δεδομένα σε ένα μαθηματικό πολλαπλό (manifold) κατά τη διάρκεια της διαδικασίας.
Σε ανάρτησή του στο LinkedIn την Πέμπτη, ο Πιερ-Καρλ Λανγκλέ, συνιδρυτής της γαλλικής start-up τεχνητής νοημοσύνης Pleias, υποστήριξε ότι η πραγματική σημασία της μελέτης υπερβαίνει την απόδειξη της κλιμάκωσης των Hyper-Connections. Όπως ανέφερε, το ουσιαστικό πλεονέκτημα της DeepSeek είναι η εσωτερική της ικανότητα να επανασχεδιάζει κάθε διάσταση του περιβάλλοντος εκπαίδευσης, προκειμένου να υποστηρίζει νέα έρευνα.
«































