Gần đây, sự phát triển của ngành AI được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất trong nhiều lĩnh vực, Boston Consulting cho rằng GPT đã nâng cao khoảng 20% hiệu suất làm việc tại Mỹ. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, trước đây thiết kế phần mềm là mã chính xác, còn bây giờ là khung mô hình lớn tổng quát hơn được nhúng vào phần mềm, những phần mềm này có thể thể hiện tốt hơn và hỗ trợ các đầu vào và đầu ra với nhiều kiểu hình thức rộng rãi hơn. Công nghệ học sâu thực sự đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, và làn sóng này cũng đã ảnh hưởng đến ngành công nghiệp tiền điện tử.
Trong báo cáo này, chúng tôi sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như tác động của việc phát minh công nghệ học sâu đối với ngành. Sau đó, chúng tôi sẽ phân tích sâu về chuỗi công nghiệp trong học sâu bao gồm GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, cũng như tình hình và xu hướng phát triển hiện tại của chúng. Sau đó, chúng tôi sẽ thảo luận chi tiết về mối quan hệ giữa tiền điện tử và ngành AI, phân tích cấu trúc của chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, nhằm hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau để hiện thực hóa trí tuệ nhân tạo trong bối cảnh các thời đại và nền tảng khoa học khác nhau.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", ý tưởng của công nghệ này là để máy móc dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ để cải thiện hiệu suất của hệ thống. Các bước chính là đưa dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, có ba trường phái chính trong học máy, đó là chủ nghĩa liên kết, chủ nghĩa ký hiệu và chủ nghĩa hành vi, mô phỏng hệ thống thần kinh, tư duy và hành vi của con người.
Hiện tại, chủ nghĩa kết nối, đại diện bởi mạng nơ-ron, đang chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là vì kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn. Một khi số lượng lớp và số lượng nơ-ron ( tham số ) trở nên đủ lớn, thì sẽ có đủ cơ hội để khớp với các nhiệm vụ phức tạp và tổng quát. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số của nơ-ron, và cuối cùng, sau nhiều lần dữ liệu, nơ-ron đó sẽ đạt được một trạng thái tối ưu ( tham số ), đây cũng chính là điều được gọi là "mạnh mẽ tạo ra điều kỳ diệu", và đây cũng là lý do cho từ "sâu" - đủ số lượng lớp và nơ-ron.
Lấy một ví dụ, có thể hiểu đơn giản là xây dựng một hàm, hàm này khi chúng ta nhập X=2 thì Y=3; X=3 thì Y=5, nếu muốn hàm này đáp ứng cho tất cả các X, thì cần phải liên tục thêm bậc của hàm và các tham số của nó, chẳng hạn như tôi có thể xây dựng một hàm thỏa mãn điều kiện này là Y = 2X -1, nhưng nếu có một dữ liệu là X=2,Y=11 thì cần phải tái cấu trúc một hàm phù hợp với ba điểm dữ liệu này, sử dụng GPU để brute force phát hiện ra Y = X2 -3X +5, khá phù hợp, nhưng không cần phải hoàn toàn trùng khớp với dữ liệu, chỉ cần tuân thủ sự cân bằng, đầu ra tương tự là đủ. Ở đây X2, X và X0 đều đại diện cho các nơ-ron khác nhau, còn 1, -3, 5 là các tham số của chúng.
Trong trường hợp này, nếu chúng ta nhập một lượng lớn dữ liệu vào mạng nơ-ron, chúng ta có thể tăng số lượng nơ-ron và điều chỉnh các tham số để phù hợp với dữ liệu mới. Như vậy, chúng ta có thể phù hợp với tất cả dữ liệu.
Công nghệ học sâu dựa trên mạng nơ-ron cũng đã trải qua nhiều lần lặp và tiến hóa, từ mạng nơ-ron ban đầu, mạng nơ-ron hồi tiếp (RNN), mạng nơ-ron tích chập (CNN), mạng đối kháng sinh (GAN) cho đến các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, thêm vào một bộ chuyển đổi ( Transformer ), dùng để mã hóa dữ liệu của tất cả các kiểu mô hình ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu thị. Sau đó, dữ liệu này được đưa vào mạng nơ-ron, nhờ vậy mà mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, tức là thực hiện đa mô hình.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên diễn ra vào những năm 60 của thế kỷ 20, sau một thập kỷ kể từ khi công nghệ AI được đưa ra. Làn sóng này là do sự phát triển của công nghệ ký hiệu, công nghệ này giải quyết vấn đề xử lý ngôn ngữ tự nhiên và đối thoại giữa người với máy. Cùng thời điểm đó, hệ thống chuyên gia ra đời, đó là hệ thống chuyên gia DENRAL được hoàn thành dưới sự giám sát của NASA tại Đại học Stanford, hệ thống này có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy luận và tạo ra câu trả lời giống như một chuyên gia hóa học, hệ thống chuyên gia hóa học này có thể được coi là sự kết hợp giữa kho kiến thức hóa học và hệ thống suy luận.
Sau hệ thống chuyên gia, vào những năm 1990, nhà khoa học và triết gia người Mỹ gốc Israel Judea Pearl ( đã đề xuất mạng Bayes, mạng này còn được gọi là mạng niềm tin. Cùng thời kỳ, Brooks đã đề xuất robot học dựa trên hành vi, đánh dấu sự ra đời của chủ nghĩa hành vi.
Năm 1997, IBM Deep Blue đã đánh bại nhà vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc trong trí tuệ nhân tạo, công nghệ AI đã đạt đến đỉnh cao phát triển lần thứ hai.
Làn sóng công nghệ AI lần thứ ba xảy ra vào năm 2006. Ba ông lớn trong lĩnh vực học sâu là Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm về học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng nhau hình thành nên làn sóng công nghệ thứ ba này, và đây cũng là thời kỳ hoàng kim của chủ nghĩa kết nối.
Nhiều sự kiện mang tính biểu tượng cũng dần xuất hiện cùng với việc khám phá và tiến bộ của công nghệ học sâu, bao gồm:
Năm 2011, Watson ) của IBM đã đánh bại con người và giành chiến thắng trong chương trình quiz "Jeopardy" (.
Năm 2014, Goodfellow đã đề xuất GAN) mạng đối kháng sinh tạo, Generative Adversarial Network(, thông qua việc cho hai mạng nơ-ron đấu tranh với nhau để học, có khả năng tạo ra những bức ảnh giống như thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách có tên "Deep Learning", được gọi là sách hoa, là một trong những cuốn sách nhập môn quan trọng trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", sự ra đời của phương pháp học sâu này ngay lập tức đã gây ra phản ứng mạnh mẽ trong giới học thuật cũng như trong ngành công nghiệp.
Năm 2015, OpenAI được thành lập, Musk, Tổng thống YC Altman, nhà đầu tư thiên thần Peter Thiel ) Peter Thiel ( và những người khác đã công bố cùng đầu tư 1 tỷ đô la.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã thi đấu cờ vây với nhà vô địch thế giới, kỳ thủ chuyên nghiệp cấp chín Li Shishi và giành chiến thắng với tỷ số tổng là 4-1.
Năm 2017, công ty công nghệ robot Hanson Robotics ) tại Hồng Kông, Trung Quốc đã phát triển robot hình người Sophia, được coi là robot đầu tiên trong lịch sử được cấp quyền công dân hạng nhất, với khả năng biểu cảm khuôn mặt phong phú và khả năng hiểu ngôn ngữ của con người.
Năm 2017, Google, với nguồn nhân lực và kho công nghệ phong phú trong lĩnh vực trí tuệ nhân tạo, đã phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, các mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI đã phát hành GPT( Generative Pre-trained Transformer) được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, đội ngũ Google Deepmind đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu hiệu tiến bộ lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, OpenAI phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, GPT-3 do OpenAI phát triển, có 175 tỷ tham số, cao gấp 100 lần so với phiên bản trước đó là GPT-2, mô hình này đã sử dụng 570GB văn bản để huấn luyện, có thể đạt hiệu suất tiên tiến trên nhiều nhiệm vụ NLP( như trả lời câu hỏi, dịch thuật, viết bài).
Năm 2021, OpenAI phát hành GPT-4, mô hình này có 1.76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, đến tháng 3, ChatGPT đã đạt 100 triệu người dùng, trở thành ứng dụng nhanh nhất trong lịch sử đạt được 100 triệu người dùng.
Năm 2024, OpenAI ra mắt GPT-4 omni.
Chú ý: Do có rất nhiều tài liệu về trí tuệ nhân tạo, nhiều trường phái khác nhau và sự tiến hóa công nghệ không giống nhau, vì vậy ở đây chủ yếu theo dõi lịch sử phát triển của học sâu hoặc chủ nghĩa kết nối, các trường phái và công nghệ khác vẫn đang trong quá trình phát triển nhanh chóng.
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều sử dụng phương pháp học sâu dựa trên mạng nơ-ron. Với sự dẫn dắt của GPT, các mô hình lớn đã tạo ra một làn sóng hưng phấn về trí tuệ nhân tạo, hàng loạt người chơi đã đổ xô vào lĩnh vực này, và chúng tôi cũng nhận thấy nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường bùng nổ mạnh mẽ. Do đó, trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi cung ứng của thuật toán học sâu, trong ngành AI được dẫn dắt bởi thuật toán học sâu, cấu trúc của các bên tham gia ở thượng nguồn và hạ nguồn là như thế nào, và tình hình hiện tại cùng với mối quan hệ cung cầu, sự phát triển trong tương lai ra sao.
Đầu tiên, chúng ta cần làm rõ rằng trong quá trình đào tạo các mô hình lớn LLMs dựa trên công nghệ Transformer, đứng đầu là GPT, ( được chia thành ba bước.
Trước khi đào tạo, vì dựa trên Transformer, nên bộ chuyển đổi cần chuyển đổi đầu vào văn bản thành các giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị số này được gọi là Token. Theo quy tắc kinh nghiệm chung, một từ hoặc ký tự tiếng Anh có thể được coi là một Token, trong khi mỗi chữ Hán có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng để định giá GPT.
Bước đầu tiên, tiền huấn luyện. Thông qua việc cung cấp đủ dữ liệu cho lớp đầu vào, tương tự như ví dụ trong phần báo cáo đầu tiên với )X,Y(, để tìm kiếm các tham số tối ưu cho từng nơ-ron của mô hình, lúc này cần một lượng lớn dữ liệu, và quá trình này cũng là quá trình tiêu tốn sức mạnh tính toán nhất, vì phải lặp đi lặp lại việc thử nghiệm các tham số khác nhau của nơ-ron. Sau khi hoàn thành việc huấn luyện một lô dữ liệu, thường sẽ sử dụng cùng một lô dữ liệu để huấn luyện lần hai nhằm lặp lại các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là việc cung cấp một lượng dữ liệu nhỏ nhưng có chất lượng rất cao để huấn luyện, những thay đổi như vậy sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể chứa lỗi hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng mô hình thông qua dữ liệu chất lượng cao.
Bước 3, học tăng cường. Đầu tiên sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi đó là "mô hình thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ tương đối đơn giản, vì bối cảnh kinh doanh khá chuyên biệt. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, nhờ đó có thể sử dụng một mô hình thưởng để tự động lặp lại các tham số của mô hình lớn. ) nhưng đôi khi cũng cần sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình (
Nói tóm lại, trong quá trình huấn luyện mô hình lớn, việc tiền huấn luyện có yêu cầu rất cao về lượng dữ liệu, và lượng sức mạnh GPU cần thiết cũng là nhiều nhất, trong khi việc tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện tham số, học tăng cường có thể thông qua một mô hình thưởng để lặp đi lặp lại các tham số nhằm xuất ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát càng cao, ví dụ như trong ví dụ hàm Y = aX + b, thực tế có hai nơ-ron X và X0, do đó cách mà các tham số thay đổi, dữ liệu mà nó có thể khớp lại rất hạn chế, vì bản chất của nó vẫn chỉ là một đường thẳng. Nếu số lượng nơ-ron nhiều hơn, thì có thể lặp lại nhiều tham số hơn, từ đó có thể khớp nhiều dữ liệu hơn, đây là lý do tại sao các mô hình lớn lại tạo ra những điều kỳ diệu, và cũng là lý do tại sao nó được gọi là mô hình lớn, bản chất chính là hàng triệu nơ-ron và tham số, hàng triệu dữ liệu, đồng thời cần một khối lượng tính toán lớn.
Do đó, hiệu suất của mô hình lớn chủ yếu được xác định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, và sức mạnh tính toán. Chúng ba yếu tố này ảnh hưởng chung đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Giả sử số lượng tham số là p, khối lượng dữ liệu là n) được tính bằng số lượng Token(, thì chúng ta có thể tính toán lượng sức mạnh tính toán cần thiết thông qua quy tắc kinh nghiệm thông thường, từ đó có thể ước lượng tình hình sức mạnh tính toán mà chúng ta cần mua cũng như thời gian đào tạo.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
12 thích
Phần thưởng
12
6
Chia sẻ
Bình luận
0/400
SandwichDetector
· 14giờ trước
Cũng được, về nước bán hàng rong thôi.
Xem bản gốcTrả lời0
GasGasGasBro
· 07-02 11:09
Bản nâng cấp này điên cuồng quá
Xem bản gốcTrả lời0
FUDwatcher
· 07-02 09:24
À? AI lại đến để gây sự chú ý à?
Xem bản gốcTrả lời0
PumpBeforeRug
· 07-02 09:23
Tăng hiệu suất 20, sao không cảm thấy nhỉ?
Xem bản gốcTrả lời0
StealthMoon
· 07-02 09:22
AI bull归牛 tài khoản欠费
Xem bản gốcTrả lời0
GameFiCritic
· 07-02 09:15
Có dữ liệu nguồn cho việc nâng cao hiệu suất 20% không?
AI và tài sản tiền điện tử: Phân tích toàn diện từ lịch sử đến chuỗi ngành
AI x Crypto: Từ số không đến đỉnh cao
Giới thiệu
Gần đây, sự phát triển của ngành AI được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất trong nhiều lĩnh vực, Boston Consulting cho rằng GPT đã nâng cao khoảng 20% hiệu suất làm việc tại Mỹ. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, trước đây thiết kế phần mềm là mã chính xác, còn bây giờ là khung mô hình lớn tổng quát hơn được nhúng vào phần mềm, những phần mềm này có thể thể hiện tốt hơn và hỗ trợ các đầu vào và đầu ra với nhiều kiểu hình thức rộng rãi hơn. Công nghệ học sâu thực sự đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, và làn sóng này cũng đã ảnh hưởng đến ngành công nghiệp tiền điện tử.
Trong báo cáo này, chúng tôi sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như tác động của việc phát minh công nghệ học sâu đối với ngành. Sau đó, chúng tôi sẽ phân tích sâu về chuỗi công nghiệp trong học sâu bao gồm GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, cũng như tình hình và xu hướng phát triển hiện tại của chúng. Sau đó, chúng tôi sẽ thảo luận chi tiết về mối quan hệ giữa tiền điện tử và ngành AI, phân tích cấu trúc của chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, nhằm hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau để hiện thực hóa trí tuệ nhân tạo trong bối cảnh các thời đại và nền tảng khoa học khác nhau.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", ý tưởng của công nghệ này là để máy móc dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ để cải thiện hiệu suất của hệ thống. Các bước chính là đưa dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, có ba trường phái chính trong học máy, đó là chủ nghĩa liên kết, chủ nghĩa ký hiệu và chủ nghĩa hành vi, mô phỏng hệ thống thần kinh, tư duy và hành vi của con người.
Hiện tại, chủ nghĩa kết nối, đại diện bởi mạng nơ-ron, đang chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là vì kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn. Một khi số lượng lớp và số lượng nơ-ron ( tham số ) trở nên đủ lớn, thì sẽ có đủ cơ hội để khớp với các nhiệm vụ phức tạp và tổng quát. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số của nơ-ron, và cuối cùng, sau nhiều lần dữ liệu, nơ-ron đó sẽ đạt được một trạng thái tối ưu ( tham số ), đây cũng chính là điều được gọi là "mạnh mẽ tạo ra điều kỳ diệu", và đây cũng là lý do cho từ "sâu" - đủ số lượng lớp và nơ-ron.
Lấy một ví dụ, có thể hiểu đơn giản là xây dựng một hàm, hàm này khi chúng ta nhập X=2 thì Y=3; X=3 thì Y=5, nếu muốn hàm này đáp ứng cho tất cả các X, thì cần phải liên tục thêm bậc của hàm và các tham số của nó, chẳng hạn như tôi có thể xây dựng một hàm thỏa mãn điều kiện này là Y = 2X -1, nhưng nếu có một dữ liệu là X=2,Y=11 thì cần phải tái cấu trúc một hàm phù hợp với ba điểm dữ liệu này, sử dụng GPU để brute force phát hiện ra Y = X2 -3X +5, khá phù hợp, nhưng không cần phải hoàn toàn trùng khớp với dữ liệu, chỉ cần tuân thủ sự cân bằng, đầu ra tương tự là đủ. Ở đây X2, X và X0 đều đại diện cho các nơ-ron khác nhau, còn 1, -3, 5 là các tham số của chúng.
Trong trường hợp này, nếu chúng ta nhập một lượng lớn dữ liệu vào mạng nơ-ron, chúng ta có thể tăng số lượng nơ-ron và điều chỉnh các tham số để phù hợp với dữ liệu mới. Như vậy, chúng ta có thể phù hợp với tất cả dữ liệu.
Công nghệ học sâu dựa trên mạng nơ-ron cũng đã trải qua nhiều lần lặp và tiến hóa, từ mạng nơ-ron ban đầu, mạng nơ-ron hồi tiếp (RNN), mạng nơ-ron tích chập (CNN), mạng đối kháng sinh (GAN) cho đến các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, thêm vào một bộ chuyển đổi ( Transformer ), dùng để mã hóa dữ liệu của tất cả các kiểu mô hình ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu thị. Sau đó, dữ liệu này được đưa vào mạng nơ-ron, nhờ vậy mà mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, tức là thực hiện đa mô hình.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên diễn ra vào những năm 60 của thế kỷ 20, sau một thập kỷ kể từ khi công nghệ AI được đưa ra. Làn sóng này là do sự phát triển của công nghệ ký hiệu, công nghệ này giải quyết vấn đề xử lý ngôn ngữ tự nhiên và đối thoại giữa người với máy. Cùng thời điểm đó, hệ thống chuyên gia ra đời, đó là hệ thống chuyên gia DENRAL được hoàn thành dưới sự giám sát của NASA tại Đại học Stanford, hệ thống này có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy luận và tạo ra câu trả lời giống như một chuyên gia hóa học, hệ thống chuyên gia hóa học này có thể được coi là sự kết hợp giữa kho kiến thức hóa học và hệ thống suy luận.
Sau hệ thống chuyên gia, vào những năm 1990, nhà khoa học và triết gia người Mỹ gốc Israel Judea Pearl ( đã đề xuất mạng Bayes, mạng này còn được gọi là mạng niềm tin. Cùng thời kỳ, Brooks đã đề xuất robot học dựa trên hành vi, đánh dấu sự ra đời của chủ nghĩa hành vi.
Năm 1997, IBM Deep Blue đã đánh bại nhà vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc trong trí tuệ nhân tạo, công nghệ AI đã đạt đến đỉnh cao phát triển lần thứ hai.
Làn sóng công nghệ AI lần thứ ba xảy ra vào năm 2006. Ba ông lớn trong lĩnh vực học sâu là Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm về học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng nhau hình thành nên làn sóng công nghệ thứ ba này, và đây cũng là thời kỳ hoàng kim của chủ nghĩa kết nối.
Nhiều sự kiện mang tính biểu tượng cũng dần xuất hiện cùng với việc khám phá và tiến bộ của công nghệ học sâu, bao gồm:
Năm 2011, Watson ) của IBM đã đánh bại con người và giành chiến thắng trong chương trình quiz "Jeopardy" (.
Năm 2014, Goodfellow đã đề xuất GAN) mạng đối kháng sinh tạo, Generative Adversarial Network(, thông qua việc cho hai mạng nơ-ron đấu tranh với nhau để học, có khả năng tạo ra những bức ảnh giống như thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách có tên "Deep Learning", được gọi là sách hoa, là một trong những cuốn sách nhập môn quan trọng trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", sự ra đời của phương pháp học sâu này ngay lập tức đã gây ra phản ứng mạnh mẽ trong giới học thuật cũng như trong ngành công nghiệp.
Năm 2015, OpenAI được thành lập, Musk, Tổng thống YC Altman, nhà đầu tư thiên thần Peter Thiel ) Peter Thiel ( và những người khác đã công bố cùng đầu tư 1 tỷ đô la.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã thi đấu cờ vây với nhà vô địch thế giới, kỳ thủ chuyên nghiệp cấp chín Li Shishi và giành chiến thắng với tỷ số tổng là 4-1.
Năm 2017, công ty công nghệ robot Hanson Robotics ) tại Hồng Kông, Trung Quốc đã phát triển robot hình người Sophia, được coi là robot đầu tiên trong lịch sử được cấp quyền công dân hạng nhất, với khả năng biểu cảm khuôn mặt phong phú và khả năng hiểu ngôn ngữ của con người.
Năm 2017, Google, với nguồn nhân lực và kho công nghệ phong phú trong lĩnh vực trí tuệ nhân tạo, đã phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, các mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI đã phát hành GPT( Generative Pre-trained Transformer) được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, đội ngũ Google Deepmind đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu hiệu tiến bộ lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, OpenAI phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, GPT-3 do OpenAI phát triển, có 175 tỷ tham số, cao gấp 100 lần so với phiên bản trước đó là GPT-2, mô hình này đã sử dụng 570GB văn bản để huấn luyện, có thể đạt hiệu suất tiên tiến trên nhiều nhiệm vụ NLP( như trả lời câu hỏi, dịch thuật, viết bài).
Năm 2021, OpenAI phát hành GPT-4, mô hình này có 1.76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, đến tháng 3, ChatGPT đã đạt 100 triệu người dùng, trở thành ứng dụng nhanh nhất trong lịch sử đạt được 100 triệu người dùng.
Năm 2024, OpenAI ra mắt GPT-4 omni.
Chú ý: Do có rất nhiều tài liệu về trí tuệ nhân tạo, nhiều trường phái khác nhau và sự tiến hóa công nghệ không giống nhau, vì vậy ở đây chủ yếu theo dõi lịch sử phát triển của học sâu hoặc chủ nghĩa kết nối, các trường phái và công nghệ khác vẫn đang trong quá trình phát triển nhanh chóng.
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều sử dụng phương pháp học sâu dựa trên mạng nơ-ron. Với sự dẫn dắt của GPT, các mô hình lớn đã tạo ra một làn sóng hưng phấn về trí tuệ nhân tạo, hàng loạt người chơi đã đổ xô vào lĩnh vực này, và chúng tôi cũng nhận thấy nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường bùng nổ mạnh mẽ. Do đó, trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi cung ứng của thuật toán học sâu, trong ngành AI được dẫn dắt bởi thuật toán học sâu, cấu trúc của các bên tham gia ở thượng nguồn và hạ nguồn là như thế nào, và tình hình hiện tại cùng với mối quan hệ cung cầu, sự phát triển trong tương lai ra sao.
Đầu tiên, chúng ta cần làm rõ rằng trong quá trình đào tạo các mô hình lớn LLMs dựa trên công nghệ Transformer, đứng đầu là GPT, ( được chia thành ba bước.
Trước khi đào tạo, vì dựa trên Transformer, nên bộ chuyển đổi cần chuyển đổi đầu vào văn bản thành các giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị số này được gọi là Token. Theo quy tắc kinh nghiệm chung, một từ hoặc ký tự tiếng Anh có thể được coi là một Token, trong khi mỗi chữ Hán có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng để định giá GPT.
Bước đầu tiên, tiền huấn luyện. Thông qua việc cung cấp đủ dữ liệu cho lớp đầu vào, tương tự như ví dụ trong phần báo cáo đầu tiên với )X,Y(, để tìm kiếm các tham số tối ưu cho từng nơ-ron của mô hình, lúc này cần một lượng lớn dữ liệu, và quá trình này cũng là quá trình tiêu tốn sức mạnh tính toán nhất, vì phải lặp đi lặp lại việc thử nghiệm các tham số khác nhau của nơ-ron. Sau khi hoàn thành việc huấn luyện một lô dữ liệu, thường sẽ sử dụng cùng một lô dữ liệu để huấn luyện lần hai nhằm lặp lại các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là việc cung cấp một lượng dữ liệu nhỏ nhưng có chất lượng rất cao để huấn luyện, những thay đổi như vậy sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể chứa lỗi hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng mô hình thông qua dữ liệu chất lượng cao.
Bước 3, học tăng cường. Đầu tiên sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi đó là "mô hình thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ tương đối đơn giản, vì bối cảnh kinh doanh khá chuyên biệt. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, nhờ đó có thể sử dụng một mô hình thưởng để tự động lặp lại các tham số của mô hình lớn. ) nhưng đôi khi cũng cần sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình (
Nói tóm lại, trong quá trình huấn luyện mô hình lớn, việc tiền huấn luyện có yêu cầu rất cao về lượng dữ liệu, và lượng sức mạnh GPU cần thiết cũng là nhiều nhất, trong khi việc tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện tham số, học tăng cường có thể thông qua một mô hình thưởng để lặp đi lặp lại các tham số nhằm xuất ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát càng cao, ví dụ như trong ví dụ hàm Y = aX + b, thực tế có hai nơ-ron X và X0, do đó cách mà các tham số thay đổi, dữ liệu mà nó có thể khớp lại rất hạn chế, vì bản chất của nó vẫn chỉ là một đường thẳng. Nếu số lượng nơ-ron nhiều hơn, thì có thể lặp lại nhiều tham số hơn, từ đó có thể khớp nhiều dữ liệu hơn, đây là lý do tại sao các mô hình lớn lại tạo ra những điều kỳ diệu, và cũng là lý do tại sao nó được gọi là mô hình lớn, bản chất chính là hàng triệu nơ-ron và tham số, hàng triệu dữ liệu, đồng thời cần một khối lượng tính toán lớn.
Do đó, hiệu suất của mô hình lớn chủ yếu được xác định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, và sức mạnh tính toán. Chúng ba yếu tố này ảnh hưởng chung đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Giả sử số lượng tham số là p, khối lượng dữ liệu là n) được tính bằng số lượng Token(, thì chúng ta có thể tính toán lượng sức mạnh tính toán cần thiết thông qua quy tắc kinh nghiệm thông thường, từ đó có thể ước lượng tình hình sức mạnh tính toán mà chúng ta cần mua cũng như thời gian đào tạo.
Đơn vị tính toán thường được gọi là Fl