Αυτή την εβδομάδα, η κινεζική εταιρεία τεχνητής νοημοσύνης Deepseek κατέρρευσε τις αγορές, λέγοντας ότι το νέο μοντέλο τεχνητής νοημοσύνης ξεπερνά το OpenAI και αξίζει ένα μερίδιο των τιμών πριν από την κατασκευή.
Δηλώσεις – Ειδικά ότι το μεγάλο γλωσσικό μοντέλο Deepseek κοστίζει μόνο 5,6 εκατομμύρια δολάρια. Οι Ηνωμένες Πολιτείες για κατάρτιση προκάλεσαν ανησυχίες σχετικά με τις επιθεωρήσεις που δαπανούν επί του παρόντος τεχνικούς γίγαντες για την υποδομή υπολογιστών που απαιτούνται για την κατάρτιση και την εκτόξευση προηγμένων φόρτων εργασίας.
Ο επενδυτής φοβάται λόγω της καταστροφικής έκθεσης του Deepseek, η οποία αποχώρησε σχεδόν 600 δισεκατομμύρια δολάρια με την κεφαλαιοποίηση της αγοράς NVIDIA τη Δευτέρα, μια κυρίαρχη μονοήμερη πτώση για οποιαδήποτε εταιρεία στην ιστορία των ΗΠΑ.
Αλλά δεν είναι όλοι πεπεισμένοι για τους ισχυρισμούς του Dipsek.
Το CNBC ζήτησε από τους εμπειρογνώμονες της βιομηχανίας για τις απόψεις του για το Deepseek και πώς συγκρίθηκε πραγματικά με τον OpenAI, τον δημιουργό της συνομιλίας CHATGPT Viral, που προκάλεσε την επανάσταση του AI.
Τι είναι το Deepseek;
Την περασμένη εβδομάδα, ο Deedseek κυκλοφόρησε το R1, το νέο μοντέλο συλλογισμού του, το οποίο ανταγωνίζεται το O1 OpenAI. Το μοντέλο συλλογισμού είναι ένα μεγάλο γλωσσικό μοντέλο που σπάει τις συμβουλές σε μικρότερα μέρη και εξετάζει αρκετές προσεγγίσεις πριν από τη δημιουργία της απάντησης. Έχει σχεδιαστεί για να επεξεργάζεται σύνθετα προβλήματα παρόμοια με τους ανθρώπους.
Η DePseek ιδρύθηκε το 2023 από τον Lian Veniffe, συνιδρυτή του ποσοτικού αμοιβαίου κεφαλαίου κινδύνου, για να επικεντρωθεί σε μεγάλα γλωσσικά μοντέλα και να επιτύχει τεχνητή γενική νοημοσύνη ή AGI.
Η AGI ως έννοια, ελεύθερα, αναφέρεται στην ιδέα του AI, η οποία είναι ίση ή υπερβαίνει την ανθρώπινη νοημοσύνη σε ένα ευρύ φάσμα καθηκόντων.
Το μεγαλύτερο μέρος της τεχνολογίας που αποτελεί τη βάση R1 δεν είναι καινούργια. Ωστόσο, είναι αξιοσημείωτο το γεγονός ότι η Deepseek είναι η πρώτη που το αναπτύσσει στο μοντέλο υψηλής απόδοσης του AI, η εταιρεία αποτελεί σημαντική μείωση των απαιτήσεων κατανάλωσης ενέργειας.
“Το συμπέρασμα είναι ότι υπάρχουν πολλές ευκαιρίες για την ανάπτυξη αυτού του κλάδου. Η εντατική μέθοδος υψηλής ποιότητας των τσιπς/κεφαλαίου είναι μια από τις τεχνολογικές προσεγγίσεις “, δήλωσε ο Xiameng Lu, διευθυντής της γεωτεχνολογικής πρακτικής Eurasia Group.
“Αλλά η Deepseek αποδεικνύει ότι βρισκόμαστε ακόμα στο εκκολαπτόμενο στάδιο της ανάπτυξης του AI, και το μονοπάτι που καθιερώθηκε από το OpenAI μπορεί να μην είναι ο μόνος τρόπος για την εξαιρετικά αποτελεσματική AI”.
Πώς διαφέρει από το OpenAI;
Το Deepseek έχει δύο κύρια συστήματα που έχουν λάβει θόρυβο από την κοινότητα AI: V3, ένα μοντέλο μιας μεγάλης γλώσσας που απελευθερώνει τα προϊόντα της και R1, ένα μοντέλο συλλογισμού.
Και τα δύο μοντέλα είναι κώδικας ανοιχτού κώδικα, δηλαδή ο βασικός κώδικας τους είναι δωρεάν και δημόσιος για άλλους προγραμματιστές για διαμόρφωση και ανακατανομή.
Τα μοντέλα Deepseek είναι πολύ μικρότερα από πολλά άλλα μεγάλα γλωσσικά μοντέλα. Το V3 έχει συνολικά 671 δισεκατομμύρια παραμέτρους ή μεταβλητές που οι μελέτες μοντέλου κατά τη διάρκεια της εκπαίδευσης. Και παρόλο που το OpenAI δεν αποκαλύπτει τις παραμέτρους, οι ειδικοί αξιολογούν το τελευταίο μοντέλο τους για να έχουν τουλάχιστον ένα τρισεκατομμύριο.
Από την άποψη της απόδοσης, η DeepSeek λέει ότι το μοντέλο R1 του φτάνει στην απόδοση συγκρίσιμη με το O1 OpenAI σε επιχειρήματα, αναφερόμενος σε δείκτες ελέγχου, συμπεριλαμβανομένων των Aime 2024, CodeForces, GPQA Diamond, Math-500, MMLU και Swech Bench.
Στην τεχνική έκθεση, η εταιρεία δήλωσε ότι το μοντέλο V3 είχε το κόστος της κατάρτισης μόνο 5,6 εκατομμυρίων δολαρίων. Οι Ηνωμένες Πολιτείες αποτελούν μέρος των δισεκατομμυρίων δολαρίων που είναι καλά -γνωστά εργαστήρια Western AI, όπως το OpenAI και το Anthropic, που δαπανώνται για την κατάρτιση και τη διαχείριση των θεμελιωδών μοντέλων του AI. Ωστόσο, δεν είναι ακόμη σαφές πόσο κοστίζει το Deepseek.
Εάν το κόστος εκπαίδευσης είναι ακριβές, τότε αυτό σημαίνει ότι το μοντέλο αναπτύχθηκε για ένα μερίδιο από το κόστος των ανταγωνιστικών μοντέλων OpenAi, Anpropic, Google και άλλοι.
Ο Daniel Newman, Διευθύνων Σύμβουλος της Tech Insight Firm The Futurum Group, δήλωσε ότι αυτά τα γεγονότα προσφέρουν μια “μαζική ανακάλυψη”, αν και έχασε κάποιες αμφιβολίες για τους ακριβείς αριθμούς.
“Πιστεύω ότι οι ανακαλύψεις Deepseek δείχνουν μια σημαντική οργή για την κλιμάκωση των νόμων και αποτελούν πραγματική αναγκαιότητα”, δήλωσε. “Έχοντας πει αυτό, εξακολουθούν να υπάρχουν πολλές ερωτήσεις και αβεβαιότητα γύρω από την πλήρη εικόνα του κόστους σχετικά με την ανάπτυξη του Deepseek”.
Εν τω μεταξύ, ο Paul Triolio, ο ανώτερος αντιπρόεδρος της κινεζικής και τεχνολογικής πολιτικής στη συμβουλευτική εταιρεία DGA Group, σημείωσε ότι ήταν δύσκολο να γίνει άμεση σύγκριση μεταξύ του κόστους του μοντέλου Deepseek και του κόστους των μεγάλων αμερικανών προγραμματιστών.
“Τα 5,6 εκατομμύρια ψηφία για το Deepseek V3 προορίζονταν μόνο για μία εκπαίδευση και η εταιρεία τόνισε ότι αυτό δεν αντιπροσωπεύει το συνολικό κόστος της Ε & Α για την ανάπτυξη του μοντέλου”, ανέφερε. “Τότε το συνολικό κόστος ήταν πιθανώς σημαντικά υψηλότερο, αλλά ακόμα χαμηλότερο από το ποσό που δαπανώνται από μεγάλες εταιρείες AI.”
Το Deepseek δεν ήταν άμεσα διαθέσιμο για σχόλια όταν ήρθε σε επαφή με το CNBC.
Σύγκριση του Deepseek, OpenAi στην τιμή
Οι Deepseek και OpenAI αποκαλύπτουν τις τιμές για τον υπολογισμό των μοντέλων τους στις ιστοσελίδες τους.
Η Deepseek λέει ότι το R1 κοστίζει 55 σεντς ανά 1 εκατομμύριο μάρκες εισόδου – “μάρκες” που σχετίζονται με κάθε ξεχωριστή μονάδα του κειμένου που επεξεργάζεται το μοντέλο – και 2,19 δολάρια για 1 εκατομμύριο μάρκες παραγωγής.
Για σύγκριση, η σελίδα τιμολόγησης OpenAI για το O1 δείχνει ότι η εταιρεία χρεώνει 15 δολάρια για 1 εκατομμύριο μάρκες εισόδου και 60 δολάρια ανά 1 εκατομμύριο μάρκες. Για το GPT-4O Mini, ένα μικρότερο, φθηνό μοντέλο γλώσσας OpenAI, η εταιρεία χρεώνει 15 σεντς ανά 1 εκατομμύριο μάρκες εισόδου.
Σκεπτικισμός πάνω από τσιπ
Η αποκάλυψη Depseek σχετικά με το R1 έχει ήδη οδηγήσει σε καυτές δημόσιες συζητήσεις σχετικά με την ειλικρίνεια της δήλωσής του – κυρίως επειδή τα μοντέλα της χτίστηκαν, παρά τα στοιχεία εξαγωγής της διαχείρισης των ΗΠΑ, περιορίζοντας τη χρήση του Advanced AI στην Κίνα.
Ο Deepseek ισχυρίζεται ότι είχε τη δική του ανακάλυψη χρησιμοποιώντας ώριμα κλιπ Nvidia, συμπεριλαμβανομένων των τσιπ H800 και A100, οι οποίες είναι λιγότερο προχωρημένες από το Ultra -modern H100, το οποίο δεν μπορεί να εξαχθεί στην Κίνα.
Παρ ‘όλα αυτά, στα σχόλια του CNBC την περασμένη εβδομάδα, ο γενικός διευθυντής του AI Alexander Wang, πιστεύει ότι η Deepseek χρησιμοποίησε απαγορευμένες μάρκες – μια δήλωση που αρνείται η Deepseek.
Από τότε, η Nvidia βγήκε και είπε ότι οι γραφικοί επεξεργαστές που χρησιμοποιούσαν η Deepseek ήταν εντελώς συμβατοί με την εξαγωγή.
Πραγματική συμφωνία ή όχι;
Φαίνεται ότι οι εμπειρογνώμονες της βιομηχανίας συμφωνούν γενικά ότι αυτό που έχει φτάσει το Deepseek είναι εντυπωσιακό, αν και κάποιοι καλούν σκεπτικισμό σχετικά με ορισμένους ισχυρισμούς της κινεζικής εταιρείας.
“Το Deepseek είναι νομικά εντυπωσιακό, αλλά το επίπεδο της υστερίας είναι ένα κατηγορητήριο πολλών”, έγραψε ο Αμερικανός επιχειρηματίας Palmer Lucca, ο οποίος ίδρυσε τον Oculus και τον Anduril στο X.
“Ο αριθμός αξίας 5 εκατομμυρίων δολαρίων είναι ψεύτικος. Η κινεζική αντιστάθμιση -fund θα πιέσει να επιβραδύνει τις επενδύσεις σε αμερικανικές νεοσύστατες επιχειρήσεις τεχνητής νοημοσύνης, να εξυπηρετήσει τα δικά τους σορτς εναντίον αμερικανικών τιτάνων όπως η Nvidia και να κρύψουν την φοροδιαφυγή των κυρώσεων.
Ο Zeal Cut, ο επικεφαλής εμπορικός διευθυντής της Netmind, μια εκκίνηση του Λονδίνου, η οποία προσφέρει πρόσβαση στα μοντέλα της τεχνητής νοημοσύνης του Deedseek μέσω ενός κατανεμημένου δικτύου γραφικών επεξεργαστών, δήλωσε ότι δεν είχε δει τον λόγο να μην πιστέψει τη Deepseek.
“Ακόμη και αν είναι απενεργοποιημένο από έναν συγκεκριμένο παράγοντα, θα είναι ακόμα πολύ αποτελεσματικό”, δήλωσε το CNBC σε τηλεφωνική συνέντευξη στις αρχές αυτής της εβδομάδας. “Η λογική αυτού που εξήγησαν είναι πολύ λογική.”
Παρ ‘όλα αυτά, ορισμένοι υποστηρίζουν ότι η τεχνολογία Deepseek μπορεί να μην έχει κατασκευαστεί από το μηδέν.
“Το Deepseek κάνει τα ίδια λάθη που καθιστά το O1 ένα πειστικό σημάδι ότι η τεχνολογία ήταν σχισμένη”, δήλωσε ο εκατομμυριούχος Winod Khoslav, χωρίς να δίνει λεπτομερέστερες πληροφορίες.
Αυτή η δήλωση, την οποία ο ίδιος ο OpenAi υπαινίσσεται, αναφέροντας το CNBC σε δήλωση την Τετάρτη ότι θεωρεί ότι οι αναφορές Deepseek, ενδεχομένως “ακατάλληλα” χρησιμοποίησαν το Σαββατοκύριακο από τα μοντέλα τους για να αναπτύξουν το δικό του μοντέλο AI, μια μέθοδο που ονομάζεται “απόσταξη”.
“Δεχόμαστε επιθετικά, προληπτικά αντίμετρα για να προστατεύσουμε τις τεχνολογίες μας και να συνεχίσουμε να συνεργαζόμαστε στενά με την αμερικανική κυβέρνηση προκειμένου να προστατεύσουμε τα πιο ικανά μοντέλα εδώ”, δήλωσε ο εκπρόσωπος της OpenAI.
Εμπορευματοποίηση του AI
Ωστόσο, η ιδιαίτερη προσοχή γύρω από το Deepseek ξεκίνησε, οι επιστήμονες στο σύνολό τους συμφωνούν ότι σηματοδοτεί ένα θετικό βήμα για τη βιομηχανία.
Ο Yann Lekun, ο κύριος επιστήμονας AI Μετα –Είπε ότι η επιτυχία του Deepseek είναι μια νίκη για τα μοντέλα AI ανοιχτού κώδικα, και όχι απαραίτητα μια νίκη για την Κίνα πάνω από το αμερικανικό meta για έναν δημοφιλή κώδικα ανοιχτού κώδικα που ονομάζεται Llama.
“Οι άνθρωποι που βλέπουν την απόδοση του Deepseek και σκέφτονται:” Η Κίνα είναι ανώτερη από τις Ηνωμένες Πολιτείες στο AI. Το διαβάζετε λάθος.
“Η Deepseek έλαβε οφέλη από την Open Research and Open Source (για παράδειγμα, Pytorch και Llama από το Meta). Ήρθαν με νέες ιδέες και τους δημιούργησαν στην κορυφή του έργου άλλων ανθρώπων. Δεδομένου ότι η δουλειά τους δημοσιεύεται και είναι ανοιχτό, όλοι μπορούν να επωφεληθούν από αυτό. Αυτή είναι η δύναμη της ανοικτής έρευνας και του κώδικα ανοιχτού κώδικα.
ΜΑΤΙΑ: Γιατί το Deepseek Jeopard
– Η Katrina Bishop από το CNBC και ο Hayden συνέβαλαν σε αυτήν την αναφορά