Tác giả: Paul Veradittakit, đối tác của Pantera Capital; Dịch: Jinse Caijing xiaozou
Tóm tắt:
VLA**Sự đổi mới và hiệu ứng quy mô đang thúc đẩy sự ra đời của những robot hình người tiết kiệm chi phí, hiệu quả và đa năng.
Khi các robot kho bãi mở rộng ra thị trường robot tiêu dùng, vấn đề an toàn robot, tài chính và cơ chế đánh giá cần được khám phá sâu hơn.
Công nghệ mã hóa sẽ thúc đẩy sự phát triển của ngành công nghiệp robot bằng cách cung cấp đảm bảo kinh tế cho sự an toàn của robot và tối ưu hóa cơ sở hạ tầng kết nối, độ trễ và quy trình thu thập dữ liệu.
ChatGPT đã thay đổi hoàn toàn kỳ vọng nhận thức của nhân loại về trí tuệ nhân tạo. Khi các mô hình ngôn ngữ lớn bắt đầu tương tác với thế giới phần mềm bên ngoài, nhiều người đã từng tin rằng các đại lý AI là hình thái cuối cùng. Nhưng nếu xem lại các bộ phim khoa học viễn tưởng kinh điển như "Chiến tranh giữa các vì sao", "Kẻ hủy diệt" hay "Cảnh sát máy" thì sẽ thấy rằng giấc mơ thực sự của nhân loại là trí tuệ nhân tạo có thể tương tác với thế giới vật lý dưới hình thức robot.
Theo Pantera Capital, "thời khắc ChatGPT trong lĩnh vực robot" sắp đến. Chúng tôi sẽ đầu tiên phân tích cách những đột phá của trí tuệ nhân tạo trong vài năm qua đã thay đổi bối cảnh ngành công nghiệp, sau đó khám phá cách công nghệ pin, tối ưu hóa độ trễ và cải tiến thu thập dữ liệu sẽ định hình bức tranh tương lai, cũng như vai trò của công nghệ mã hóa trong đó. Cuối cùng, chúng tôi sẽ giải thích lý do tại sao cho rằng an toàn robot, tài trợ, đánh giá và giáo dục là những lĩnh vực cần được chú trọng.
1**, Yếu tố cách mạng**
(1)Đột phá trí tuệ nhân tạo
Tiến bộ trong lĩnh vực mô hình ngôn ngữ đa mô hình đang cung cấp cho robot "bộ não" cần thiết để thực hiện các nhiệm vụ phức tạp. Robot chủ yếu cảm nhận môi trường thông qua hai giác quan là thị giác và thính giác.
Mô hình thị giác máy tính truyền thống (như mạng nơ-ron tích chập) dù giỏi trong các nhiệm vụ phát hiện hoặc phân loại đối tượng, nhưng lại khó khăn trong việc chuyển đổi thông tin thị giác thành các chỉ dẫn hành động có mục đích. Mô hình ngôn ngữ lớn dù thể hiện xuất sắc trong việc hiểu và tạo ra văn bản, nhưng lại bị hạn chế bởi khả năng cảm nhận thế giới vật lý.
Thông qua mô hình Hình ảnh-Ngôn ngữ-Hành động (VLA), robot có thể tích hợp nhận thức thị giác, hiểu ngôn ngữ và hành động thể chất trong một khung tính toán thống nhất. Vào tháng 2 năm 2025, Figure AI đã phát hành mô hình điều khiển robot hình người chung Helix, mô hình VLA này đã thiết lập tiêu chuẩn mới cho ngành với khả năng tổng quát không mẫu và kiến trúc hệ thống 1/hệ thống 2. Đặc điểm tổng quát không mẫu cho phép robot thích nghi ngay lập tức với các cảnh mới, vật thể mới và lệnh mới mà không cần phải đào tạo lại cho mỗi nhiệm vụ. Kiến trúc hệ thống 1/hệ thống 2 tách biệt suy luận bậc cao và suy luận nhẹ, đạt được sự kết hợp giữa tư duy giống người và độ chính xác thời gian thực trong robot hình người thương mại.
(2)Robot kinh tế trở thành hiện thực
Công nghệ thay đổi thế giới đều có một đặc điểm chung - khả năng phổ cập. Smartphone, máy tính cá nhân, và công nghệ in 3D đã trở nên phổ biến với mức giá mà tầng lớp trung lưu có thể chi trả. Khi giá của những con robot như Unitree G1 thấp hơn giá của một chiếc Honda Accord hoặc mức thu nhập tối thiểu hàng năm tại Mỹ là 34.000 USD, thì việc tưởng tượng về một thế giới mà lao động chân tay và các công việc hàng ngày chủ yếu do robot thực hiện không còn là điều gì lạ lẫm.
(3)Từ kho hàng đến thị trường tiêu dùng
Công nghệ robot đang mở rộng từ các giải pháp kho bãi sang lĩnh vực tiêu dùng. Thế giới này được thiết kế cho con người - con người có thể hoàn thành tất cả công việc của robot chuyên dụng, trong khi robot chuyên dụng không thể đảm nhận tất cả công việc của con người. Các công ty robot không còn giới hạn việc sản xuất robot chuyên dụng cho nhà máy, mà chuyển sang phát triển robot hình người có tính linh hoạt cao hơn. Do đó, công nghệ robot không chỉ tồn tại trong kho bãi, mà còn thấm nhuần vào cuộc sống hàng ngày.
Chi phí là một trong những nút thắt chính của khả năng mở rộng. Chỉ số mà chúng tôi quan tâm nhất là chi phí tổng hợp mỗi giờ, được tính bằng cách lấy tổng chi phí cơ hội thời gian cho việc huấn luyện và sạc, chi phí thực hiện nhiệm vụ và chi phí mua robot, chia cho tổng thời gian hoạt động của robot. Chi phí này cần phải thấp hơn mức lương trung bình của ngành liên quan để có tính cạnh tranh.
Để thâm nhập toàn diện vào lĩnh vực kho bãi, chi phí tổng hợp của robot mỗi giờ phải thấp hơn 31,39 USD. Trong khi đó, trong thị trường tiêu dùng lớn nhất - lĩnh vực giáo dục tư nhân và dịch vụ sức khỏe, chi phí này cần được kiểm soát dưới 35,18 USD. Hiện tại, robot đang phát triển theo hướng rẻ hơn, hiệu quả hơn, đa dụng hơn.
2**, Bước đột phá tiếp theo của công nghệ robot**
(1)tối ưu hóa pin
Công nghệ pin luôn là điểm nghẽn của robot thân thiện với người dùng. Các xe điện đầu tiên như BMW i3 gặp phải hạn chế về công nghệ pin dẫn đến thời gian sử dụng ngắn, chi phí cao và tính thực tiễn thấp, khiến chúng khó phổ biến, và robot cũng đang phải đối mặt với tình huống tương tự. Robot Spot của Boston Dynamics chỉ có thể hoạt động liên tục trong 90 phút, trong khi pin của Unitree G1 có thời gian sử dụng khoảng 2 giờ. Rõ ràng người dùng không muốn phải sạc pin thủ công mỗi 2 giờ, vì vậy việc tự sạc và kết nối với cơ sở hạ tầng trở thành hướng phát triển chính. Hiện tại, có hai chế độ sạc chính cho robot: thay pin hoặc sạc trực tiếp.
Chế độ thay pin thực hiện công việc liên tục thông qua việc thay thế nhanh chóng bộ pin đã cạn kiệt, tối đa hóa thời gian hoạt động và giảm thiểu thời gian ngừng hoạt động, phù hợp cho các tình huống ngoài trời hoặc trong nhà máy. Quy trình này có thể được thực hiện thủ công hoặc tự động.
Sạc cảm ứng sử dụng phương thức cung cấp điện không dây, mặc dù thời gian sạc đầy tương đối dài, nhưng có thể dễ dàng thực hiện quy trình hoàn toàn tự động.
(2)tối ưu hóa độ trễ
Hoạt động độ trễ thấp có thể được chia thành hai loại: nhận thức môi trường và điều khiển từ xa. Nhận thức đề cập đến khả năng nhận thức không gian của robot đối với môi trường, trong khi điều khiển từ xa cụ thể chỉ việc kiểm soát thời gian thực của người điều hành.
Theo nghiên cứu của Cintrini, hệ thống cảm nhận của robot bắt đầu từ các cảm biến giá rẻ, nhưng lợi thế công nghệ nằm ở phần mềm tích hợp, tính toán tiêu thụ điện năng thấp và mạch điều khiển chính xác trong mili giây. Khi robot hoàn thành việc định vị không gian, mạng nơ-ron nhẹ sẽ đánh dấu các yếu tố như vật cản, pallet hoặc con người. Sau khi nhãn cảnh được nhập vào hệ thống lập kế hoạch, ngay lập tức phát sinh lệnh điều khiển động cơ gửi đến chân, bánh xe hoặc cánh tay cơ khí. Độ trễ cảm nhận dưới 50** mili giây tương đương với tốc độ phản xạ của con người****——**** bất kỳ độ trễ nào vượt quá ngưỡng này sẽ khiến hành động của robot trở nên vụng về.** Do đó, 90% quyết định cần được thực hiện tại chỗ thông qua một mạng lưới thị giác-ngôn ngữ-hành động duy nhất.
Robot tự động hoàn toàn cần đảm bảo mô hình VLA hiệu suất cao với độ trễ dưới 50 mili giây; đối với robot điều khiển từ xa, yêu cầu độ trễ tín hiệu giữa đầu điều khiển và robot không vượt quá 50 mili giây. Tầm quan trọng của mô hình VLA ở đây càng được thể hiện rõ ràng — nếu đầu vào hình ảnh và văn bản được xử lý bởi các mô hình khác nhau trước khi đưa vào mô hình ngôn ngữ lớn, tổng độ trễ sẽ vượt quá ngưỡng 50 mili giây.
(3)Tối ưu hóa thu thập dữ liệu
Có ba cách chính để thu thập dữ liệu: dữ liệu video từ thế giới thực, dữ liệu tổng hợp và dữ liệu điều khiển từ xa. Nút thắt chính giữa dữ liệu thực và dữ liệu tổng hợp là việc thu hẹp khoảng cách giữa hành vi vật lý của robot và mô hình mô phỏng video**/****.** Dữ liệu video thực thiếu các chi tiết vật lý như phản hồi lực, lỗi chuyển động khớp và biến dạng vật liệu; dữ liệu mô phỏng thì thiếu các biến không thể dự đoán như lỗi cảm biến và hệ số ma sát.
Phương pháp thu thập dữ liệu tiềm năng nhất là điều khiển từ xa - do các điều hành viên con người điều khiển robot thực hiện nhiệm vụ. Tuy nhiên, chi phí nhân lực là yếu tố hạn chế chính của việc thu thập dữ liệu bằng cách điều khiển từ xa.
Việc phát triển phần cứng tùy chỉnh cũng đang cung cấp các giải pháp mới cho việc thu thập dữ liệu chất lượng cao. Công ty Mecka kết hợp các phương pháp phổ biến với phần cứng tùy chỉnh để thu thập dữ liệu chuyển động con người đa chiều, sau khi xử lý, dữ liệu được chuyển đổi thành bộ dữ liệu phù hợp cho việc huấn luyện mạng nơ-ron của robot, kết hợp với chu kỳ lặp nhanh cung cấp cho việc huấn luyện robot AI một lượng lớn dữ liệu chất lượng cao. Những ống kỹ thuật này cùng nhau rút ngắn con đường chuyển đổi từ dữ liệu thô đến robot có thể triển khai.
3**、lĩnh vực khám phá chính**
(1)Công nghệ mã hóa và sự kết hợp với robot
Công nghệ mã hóa có thể khuyến khích các bên không tin cậy nâng cao hiệu suất của mạng lưới robot. Dựa trên các lĩnh vực quan trọng đã đề cập trước đó, chúng tôi cho rằng công nghệ mã hóa có thể nâng cao hiệu suất trong ba khía cạnh: kết nối cơ sở hạ tầng, tối ưu hóa độ trễ và thu thập dữ liệu.
Mạng lưới cơ sở hạ tầng vật lý phi tập trung (DePIN) hứa hẹn sẽ cách mạng hóa cơ sở hạ tầng sạc. Khi robot hình người hoạt động toàn cầu như ô tô, trạm sạc cần phải dễ dàng tiếp cận như trạm xăng. Mạng lưới tập trung cần một khoản đầu tư ban đầu khổng lồ, trong khi DePIN phân chia chi phí cho các nhà điều hành nút, giúp cơ sở hạ tầng sạc mở rộng nhanh chóng đến nhiều khu vực hơn.
DePIN còn có thể tận dụng cơ sở hạ tầng phân tán để tối ưu hóa độ trễ điều khiển từ xa. Bằng cách tổng hợp tài nguyên tính toán từ các nút biên phân tán về mặt địa lý, các lệnh điều khiển từ xa có thể được xử lý bởi các nút cục bộ hoặc gần nhất có sẵn, tối đa hóa việc rút ngắn khoảng cách truyền dữ liệu và giảm đáng kể độ trễ truyền thông. Tuy nhiên, hiện tại các dự án DePIN chủ yếu tập trung vào lưu trữ phi tập trung, phân phối nội dung và chia sẻ băng thông, mặc dù có các dự án trình diễn lợi thế của tính toán biên trong phát trực tuyến hoặc Internet vạn vật, vẫn chưa mở rộng đến lĩnh vực robot hoặc điều khiển từ xa.
Điều khiển từ xa là phương pháp thu thập dữ liệu nhiều triển vọng nhất, nhưng chi phí để các thực thể tập trung thuê chuyên gia thu thập dữ liệu lại rất cao. DePIN giải quyết vấn đề này bằng cách khuyến khích bên thứ ba cung cấp dữ liệu điều khiển từ xa thông qua mã thông báo mã hóa. Dự án Reborn xây dựng mạng lưới người điều hành từ xa toàn cầu, chuyển đổi đóng góp của họ thành tài sản số hóa token hóa, hình thành một hệ thống phi tập trung không cần xin phép - các người tham gia vừa có thể thu được lợi nhuận, vừa tham gia quản trị và hỗ trợ đào tạo robot AGI.
(2) An toàn luôn là mối quan tâm cốt lõi
Mục tiêu cuối cùng của công nghệ robot là đạt được tự động hóa hoàn toàn, nhưng như những gì được cảnh báo trong loạt phim "Kẻ hủy diệt", điều mà con người không muốn thấy nhất là sự tự chủ biến robot thành vũ khí tấn công. Các vấn đề an toàn của mô hình ngôn ngữ lớn đã gây ra sự chú ý, và khi những mô hình này có khả năng hành động thực thể, an toàn robot trở thành điều kiện tiên quyết cho sự chấp nhận của xã hội.
An ninh kinh tế là một trong những trụ cột của sự thịnh vượng trong hệ sinh thái robot. Công ty OpenMind trong lĩnh vực này đang xây dựng FABRIC - một lớp điều phối máy móc phi tập trung, thông qua chứng minh mật mã để thực hiện xác thực danh tính thiết bị, xác minh sự hiện diện vật lý và truy cập tài nguyên. Khác với việc quản lý thị trường tác vụ đơn giản, FABRIC cho phép robot tự chứng minh thông tin danh tính, vị trí địa lý và hồ sơ hành vi mà không phụ thuộc vào trung gian tập trung.
Ràng buộc hành vi và xác thực danh tính được thực hiện thông qua cơ chế trên chuỗi, đảm bảo bất kỳ ai cũng có thể kiểm tra tính tuân thủ. Robot đáp ứng tiêu chuẩn an toàn, yêu cầu chất lượng và quy định khu vực sẽ nhận được phần thưởng, trong khi những người vi phạm sẽ phải đối mặt với hình phạt hoặc bị loại khỏi cuộc chơi, từ đó xây dựng cơ chế trách nhiệm và tin tưởng trong mạng lưới robot tự trị.
Mạng tái thế chấp bên thứ ba (như Symbiotic) cũng có thể cung cấp sự bảo đảm an toàn tương đương. Mặc dù hệ thống tham số hình phạt vẫn cần được hoàn thiện, công nghệ liên quan đã bước vào giai đoạn thực tiễn. Chúng tôi dự đoán các tiêu chuẩn an toàn trong ngành sắp được hình thành, và khi đó tham số hình phạt sẽ được mô hình hóa theo những tiêu chuẩn này.
Ví dụ về kế hoạch thực hiện:
Công ty robot tham gia mạng lưới Symbiotic.
Thiết lập các tham số tịch thu có thể xác minh (chẳng hạn như "Áp dụng lực tiếp xúc của con người vượt quá 2500 Newton");
Nhà đầu tư cung cấp tiền ký quỹ để đảm bảo robot tuân thủ các tham số;
Nếu vi phạm xảy ra, tiền ký quỹ sẽ được dùng làm bồi thường cho nạn nhân.
Chế độ này vừa khuyến khích các doanh nghiệp đặt an toàn lên hàng đầu, vừa thúc đẩy mức độ chấp nhận của người tiêu dùng thông qua cơ chế bảo hiểm của quỹ staking.
Quan điểm của đội Symbiotic về lĩnh vực robot là:
Symbiotic* Khung staking tổng quát nhằm kéo dài khái niệm staking đến tất cả các lĩnh vực cần đảm bảo an toàn kinh tế, bất kể là thông qua mô hình chia sẻ hay độc lập. Các trường hợp áp dụng từ bảo hiểm đến công nghệ robot cần được thiết kế cụ thể cho từng trường hợp. Ví dụ, mạng lưới robot có thể được xây dựng hoàn toàn dựa trên khung Symbiotic, cho phép các bên liên quan cung cấp bảo đảm kinh tế cho tính toàn vẹn của mạng.
4**, Bù đắp khoảng trống trong công nghệ robot
OpenAI đã thúc đẩy sự phổ biến của AI, nhưng nền tảng của ChatGPT đã được thiết lập từ lâu. Dịch vụ đám mây đã phá vỡ sự phụ thuộc của mô hình vào sức mạnh tính toán địa phương, Huggingface đã thực hiện mô hình mã nguồn mở, và Kaggle đã cung cấp nền tảng thí nghiệm cho các kỹ sư AI. Những bước đột phá dần dần này đã góp phần vào sự phổ biến của AI.
**Khác vớiAI, lĩnh vực robot khó có thể tiếp cận khi nguồn vốn hạn chế. Để phổ biến robot, mức phát triển cần được hạ thấp đến mức độ dễ dàng tương tự như phát triển ứng dụngAI. Chúng tôi cho rằng có ba khía cạnh cần cải thiện: cơ chế tài chính, hệ thống đánh giá và hệ sinh thái giáo dục.
Tài trợ là một vấn đề khó khăn trong lĩnh vực robot. Việc phát triển chương trình máy tính chỉ cần một máy tính và tài nguyên điện toán đám mây, trong khi việc xây dựng một robot hoàn chỉnh chức năng cần phải mua các phần cứng như động cơ, cảm biến, pin, v.v., với chi phí dễ dàng vượt qua 100.000 đô la. Tính chất phần cứng này khiến việc phát triển robot kém linh hoạt hơn so với AI và có chi phí cao.
Cơ sở hạ tầng đánh giá robot trong các tình huống thực tế vẫn còn ở giai đoạn sơ khai. Lĩnh vực AI đã thiết lập một hệ thống hàm mất mát rõ ràng, việc thử nghiệm có thể hoàn toàn ảo hóa. Nhưng các chiến lược ảo xuất sắc không thể được chuyển đổi trực tiếp thành các giải pháp hiệu quả trong thế giới thực. Robot cần có cơ sở hạ tầng đánh giá các chiến lược tự chủ trong các môi trường thực tế đa dạng để có thể thực hiện tối ưu hóa lặp lại.
Khi cơ sở hạ tầng này trưởng thành, nhân tài sẽ đổ vào số lượng lớn, và robot hình người sẽ tái diễn đường cong bùng nổ của Web2. Công ty robot tiền điện tử OpenMind đang tiến về hướng này - dự án mã nguồn mở OM1 ("hệ thống Android cho robot") sẽ biến phần cứng nguyên bản thành các tác nhân thông minh có ý thức kinh tế có thể nâng cấp. Các mô-đun lập kế hoạch thị giác, ngôn ngữ và chuyển động có thể cắm và sử dụng như ứng dụng điện thoại, tất cả các bước suy diễn được trình bày bằng tiếng Anh rõ ràng, cho phép người điều hành kiểm tra hoặc điều chỉnh hành vi mà không cần tiếp xúc với firmware. Năng lực suy diễn ngôn ngữ tự nhiên này cho phép thế hệ nhân tài mới gia nhập lĩnh vực robot một cách liền mạch, đánh dấu một bước quan trọng cho nền tảng mở thúc đẩy cuộc cách mạng robot, giống như tác động tăng tốc của phong trào mã nguồn mở đối với AI.
Mật độ nhân tài quyết định quỹ đạo ngành. Hệ thống giáo dục phổ cập có cấu trúc là rất quan trọng cho việc cung cấp nhân tài trong lĩnh vực robot. Việc OpenMind niêm yết trên Nasdaq đánh dấu sự khởi đầu của một kỷ nguyên mới, nơi mà máy móc thông minh tham gia vào đổi mới tài chính và giáo dục thực thể. OpenMind** và Robostore công bố sẽ ra mắt khóa học giáo dục phổ thông dựa trên robot hình người Unitree G1 đầu tiên tại các trường công lập K-12 của Mỹ. **Khóa học này được thiết kế có tính độc lập với nền tảng, có thể thích ứng với nhiều hình thức robot khác nhau, cung cấp cơ hội thực hành cho học sinh. Tín hiệu tích cực này củng cố nhận định của chúng tôi: **Trong vài năm tới, mức độ phong phú của tài nguyên giáo dục robot sẽ ngang tầm với lĩnh vực AI. **
5**、Triển vọng tương lai**
Sự đổi mới và hiệu ứng quy mô kinh tế của mô hình Hành động Ngôn ngữ Hình ảnh (VLA) đã tạo ra những robot hình người tiết kiệm chi phí, hiệu quả và phổ quát. Khi robot kho bãi mở rộng sang thị trường tiêu dùng, an toàn, mô hình tài chính và hệ thống đánh giá trở thành những hướng khám phá quan trọng. Chúng tôi tin tưởng rằng công nghệ mã hóa sẽ thúc đẩy sự phát triển của robot thông qua ba con đường: cung cấp đảm bảo kinh tế cho an toàn, tối ưu hóa cơ sở hạ tầng sạc, nâng cao hiệu suất độ trễ và đường ống thu thập dữ liệu.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Đối tác Pantera: Thời đại Bots AI được điều khiển bởi mã hóa
Tác giả: Paul Veradittakit, đối tác của Pantera Capital; Dịch: Jinse Caijing xiaozou
Tóm tắt:
VLA**Sự đổi mới và hiệu ứng quy mô đang thúc đẩy sự ra đời của những robot hình người tiết kiệm chi phí, hiệu quả và đa năng.
Khi các robot kho bãi mở rộng ra thị trường robot tiêu dùng, vấn đề an toàn robot, tài chính và cơ chế đánh giá cần được khám phá sâu hơn.
Công nghệ mã hóa sẽ thúc đẩy sự phát triển của ngành công nghiệp robot bằng cách cung cấp đảm bảo kinh tế cho sự an toàn của robot và tối ưu hóa cơ sở hạ tầng kết nối, độ trễ và quy trình thu thập dữ liệu.
ChatGPT đã thay đổi hoàn toàn kỳ vọng nhận thức của nhân loại về trí tuệ nhân tạo. Khi các mô hình ngôn ngữ lớn bắt đầu tương tác với thế giới phần mềm bên ngoài, nhiều người đã từng tin rằng các đại lý AI là hình thái cuối cùng. Nhưng nếu xem lại các bộ phim khoa học viễn tưởng kinh điển như "Chiến tranh giữa các vì sao", "Kẻ hủy diệt" hay "Cảnh sát máy" thì sẽ thấy rằng giấc mơ thực sự của nhân loại là trí tuệ nhân tạo có thể tương tác với thế giới vật lý dưới hình thức robot.
Theo Pantera Capital, "thời khắc ChatGPT trong lĩnh vực robot" sắp đến. Chúng tôi sẽ đầu tiên phân tích cách những đột phá của trí tuệ nhân tạo trong vài năm qua đã thay đổi bối cảnh ngành công nghiệp, sau đó khám phá cách công nghệ pin, tối ưu hóa độ trễ và cải tiến thu thập dữ liệu sẽ định hình bức tranh tương lai, cũng như vai trò của công nghệ mã hóa trong đó. Cuối cùng, chúng tôi sẽ giải thích lý do tại sao cho rằng an toàn robot, tài trợ, đánh giá và giáo dục là những lĩnh vực cần được chú trọng.
1**, Yếu tố cách mạng**
(1)Đột phá trí tuệ nhân tạo
Tiến bộ trong lĩnh vực mô hình ngôn ngữ đa mô hình đang cung cấp cho robot "bộ não" cần thiết để thực hiện các nhiệm vụ phức tạp. Robot chủ yếu cảm nhận môi trường thông qua hai giác quan là thị giác và thính giác.
Mô hình thị giác máy tính truyền thống (như mạng nơ-ron tích chập) dù giỏi trong các nhiệm vụ phát hiện hoặc phân loại đối tượng, nhưng lại khó khăn trong việc chuyển đổi thông tin thị giác thành các chỉ dẫn hành động có mục đích. Mô hình ngôn ngữ lớn dù thể hiện xuất sắc trong việc hiểu và tạo ra văn bản, nhưng lại bị hạn chế bởi khả năng cảm nhận thế giới vật lý.
Thông qua mô hình Hình ảnh-Ngôn ngữ-Hành động (VLA), robot có thể tích hợp nhận thức thị giác, hiểu ngôn ngữ và hành động thể chất trong một khung tính toán thống nhất. Vào tháng 2 năm 2025, Figure AI đã phát hành mô hình điều khiển robot hình người chung Helix, mô hình VLA này đã thiết lập tiêu chuẩn mới cho ngành với khả năng tổng quát không mẫu và kiến trúc hệ thống 1/hệ thống 2. Đặc điểm tổng quát không mẫu cho phép robot thích nghi ngay lập tức với các cảnh mới, vật thể mới và lệnh mới mà không cần phải đào tạo lại cho mỗi nhiệm vụ. Kiến trúc hệ thống 1/hệ thống 2 tách biệt suy luận bậc cao và suy luận nhẹ, đạt được sự kết hợp giữa tư duy giống người và độ chính xác thời gian thực trong robot hình người thương mại.
(2)Robot kinh tế trở thành hiện thực
Công nghệ thay đổi thế giới đều có một đặc điểm chung - khả năng phổ cập. Smartphone, máy tính cá nhân, và công nghệ in 3D đã trở nên phổ biến với mức giá mà tầng lớp trung lưu có thể chi trả. Khi giá của những con robot như Unitree G1 thấp hơn giá của một chiếc Honda Accord hoặc mức thu nhập tối thiểu hàng năm tại Mỹ là 34.000 USD, thì việc tưởng tượng về một thế giới mà lao động chân tay và các công việc hàng ngày chủ yếu do robot thực hiện không còn là điều gì lạ lẫm.
(3)Từ kho hàng đến thị trường tiêu dùng
Công nghệ robot đang mở rộng từ các giải pháp kho bãi sang lĩnh vực tiêu dùng. Thế giới này được thiết kế cho con người - con người có thể hoàn thành tất cả công việc của robot chuyên dụng, trong khi robot chuyên dụng không thể đảm nhận tất cả công việc của con người. Các công ty robot không còn giới hạn việc sản xuất robot chuyên dụng cho nhà máy, mà chuyển sang phát triển robot hình người có tính linh hoạt cao hơn. Do đó, công nghệ robot không chỉ tồn tại trong kho bãi, mà còn thấm nhuần vào cuộc sống hàng ngày.
Chi phí là một trong những nút thắt chính của khả năng mở rộng. Chỉ số mà chúng tôi quan tâm nhất là chi phí tổng hợp mỗi giờ, được tính bằng cách lấy tổng chi phí cơ hội thời gian cho việc huấn luyện và sạc, chi phí thực hiện nhiệm vụ và chi phí mua robot, chia cho tổng thời gian hoạt động của robot. Chi phí này cần phải thấp hơn mức lương trung bình của ngành liên quan để có tính cạnh tranh.
Để thâm nhập toàn diện vào lĩnh vực kho bãi, chi phí tổng hợp của robot mỗi giờ phải thấp hơn 31,39 USD. Trong khi đó, trong thị trường tiêu dùng lớn nhất - lĩnh vực giáo dục tư nhân và dịch vụ sức khỏe, chi phí này cần được kiểm soát dưới 35,18 USD. Hiện tại, robot đang phát triển theo hướng rẻ hơn, hiệu quả hơn, đa dụng hơn.
2**, Bước đột phá tiếp theo của công nghệ robot**
(1)tối ưu hóa pin
Công nghệ pin luôn là điểm nghẽn của robot thân thiện với người dùng. Các xe điện đầu tiên như BMW i3 gặp phải hạn chế về công nghệ pin dẫn đến thời gian sử dụng ngắn, chi phí cao và tính thực tiễn thấp, khiến chúng khó phổ biến, và robot cũng đang phải đối mặt với tình huống tương tự. Robot Spot của Boston Dynamics chỉ có thể hoạt động liên tục trong 90 phút, trong khi pin của Unitree G1 có thời gian sử dụng khoảng 2 giờ. Rõ ràng người dùng không muốn phải sạc pin thủ công mỗi 2 giờ, vì vậy việc tự sạc và kết nối với cơ sở hạ tầng trở thành hướng phát triển chính. Hiện tại, có hai chế độ sạc chính cho robot: thay pin hoặc sạc trực tiếp.
Chế độ thay pin thực hiện công việc liên tục thông qua việc thay thế nhanh chóng bộ pin đã cạn kiệt, tối đa hóa thời gian hoạt động và giảm thiểu thời gian ngừng hoạt động, phù hợp cho các tình huống ngoài trời hoặc trong nhà máy. Quy trình này có thể được thực hiện thủ công hoặc tự động.
Sạc cảm ứng sử dụng phương thức cung cấp điện không dây, mặc dù thời gian sạc đầy tương đối dài, nhưng có thể dễ dàng thực hiện quy trình hoàn toàn tự động.
(2)tối ưu hóa độ trễ
Hoạt động độ trễ thấp có thể được chia thành hai loại: nhận thức môi trường và điều khiển từ xa. Nhận thức đề cập đến khả năng nhận thức không gian của robot đối với môi trường, trong khi điều khiển từ xa cụ thể chỉ việc kiểm soát thời gian thực của người điều hành.
Theo nghiên cứu của Cintrini, hệ thống cảm nhận của robot bắt đầu từ các cảm biến giá rẻ, nhưng lợi thế công nghệ nằm ở phần mềm tích hợp, tính toán tiêu thụ điện năng thấp và mạch điều khiển chính xác trong mili giây. Khi robot hoàn thành việc định vị không gian, mạng nơ-ron nhẹ sẽ đánh dấu các yếu tố như vật cản, pallet hoặc con người. Sau khi nhãn cảnh được nhập vào hệ thống lập kế hoạch, ngay lập tức phát sinh lệnh điều khiển động cơ gửi đến chân, bánh xe hoặc cánh tay cơ khí. Độ trễ cảm nhận dưới 50** mili giây tương đương với tốc độ phản xạ của con người****——**** bất kỳ độ trễ nào vượt quá ngưỡng này sẽ khiến hành động của robot trở nên vụng về.** Do đó, 90% quyết định cần được thực hiện tại chỗ thông qua một mạng lưới thị giác-ngôn ngữ-hành động duy nhất.
Robot tự động hoàn toàn cần đảm bảo mô hình VLA hiệu suất cao với độ trễ dưới 50 mili giây; đối với robot điều khiển từ xa, yêu cầu độ trễ tín hiệu giữa đầu điều khiển và robot không vượt quá 50 mili giây. Tầm quan trọng của mô hình VLA ở đây càng được thể hiện rõ ràng — nếu đầu vào hình ảnh và văn bản được xử lý bởi các mô hình khác nhau trước khi đưa vào mô hình ngôn ngữ lớn, tổng độ trễ sẽ vượt quá ngưỡng 50 mili giây.
(3)Tối ưu hóa thu thập dữ liệu
Có ba cách chính để thu thập dữ liệu: dữ liệu video từ thế giới thực, dữ liệu tổng hợp và dữ liệu điều khiển từ xa. Nút thắt chính giữa dữ liệu thực và dữ liệu tổng hợp là việc thu hẹp khoảng cách giữa hành vi vật lý của robot và mô hình mô phỏng video**/****.** Dữ liệu video thực thiếu các chi tiết vật lý như phản hồi lực, lỗi chuyển động khớp và biến dạng vật liệu; dữ liệu mô phỏng thì thiếu các biến không thể dự đoán như lỗi cảm biến và hệ số ma sát.
Phương pháp thu thập dữ liệu tiềm năng nhất là điều khiển từ xa - do các điều hành viên con người điều khiển robot thực hiện nhiệm vụ. Tuy nhiên, chi phí nhân lực là yếu tố hạn chế chính của việc thu thập dữ liệu bằng cách điều khiển từ xa.
Việc phát triển phần cứng tùy chỉnh cũng đang cung cấp các giải pháp mới cho việc thu thập dữ liệu chất lượng cao. Công ty Mecka kết hợp các phương pháp phổ biến với phần cứng tùy chỉnh để thu thập dữ liệu chuyển động con người đa chiều, sau khi xử lý, dữ liệu được chuyển đổi thành bộ dữ liệu phù hợp cho việc huấn luyện mạng nơ-ron của robot, kết hợp với chu kỳ lặp nhanh cung cấp cho việc huấn luyện robot AI một lượng lớn dữ liệu chất lượng cao. Những ống kỹ thuật này cùng nhau rút ngắn con đường chuyển đổi từ dữ liệu thô đến robot có thể triển khai.
3**、lĩnh vực khám phá chính**
(1)Công nghệ mã hóa và sự kết hợp với robot
Công nghệ mã hóa có thể khuyến khích các bên không tin cậy nâng cao hiệu suất của mạng lưới robot. Dựa trên các lĩnh vực quan trọng đã đề cập trước đó, chúng tôi cho rằng công nghệ mã hóa có thể nâng cao hiệu suất trong ba khía cạnh: kết nối cơ sở hạ tầng, tối ưu hóa độ trễ và thu thập dữ liệu.
Mạng lưới cơ sở hạ tầng vật lý phi tập trung (DePIN) hứa hẹn sẽ cách mạng hóa cơ sở hạ tầng sạc. Khi robot hình người hoạt động toàn cầu như ô tô, trạm sạc cần phải dễ dàng tiếp cận như trạm xăng. Mạng lưới tập trung cần một khoản đầu tư ban đầu khổng lồ, trong khi DePIN phân chia chi phí cho các nhà điều hành nút, giúp cơ sở hạ tầng sạc mở rộng nhanh chóng đến nhiều khu vực hơn.
DePIN còn có thể tận dụng cơ sở hạ tầng phân tán để tối ưu hóa độ trễ điều khiển từ xa. Bằng cách tổng hợp tài nguyên tính toán từ các nút biên phân tán về mặt địa lý, các lệnh điều khiển từ xa có thể được xử lý bởi các nút cục bộ hoặc gần nhất có sẵn, tối đa hóa việc rút ngắn khoảng cách truyền dữ liệu và giảm đáng kể độ trễ truyền thông. Tuy nhiên, hiện tại các dự án DePIN chủ yếu tập trung vào lưu trữ phi tập trung, phân phối nội dung và chia sẻ băng thông, mặc dù có các dự án trình diễn lợi thế của tính toán biên trong phát trực tuyến hoặc Internet vạn vật, vẫn chưa mở rộng đến lĩnh vực robot hoặc điều khiển từ xa.
Điều khiển từ xa là phương pháp thu thập dữ liệu nhiều triển vọng nhất, nhưng chi phí để các thực thể tập trung thuê chuyên gia thu thập dữ liệu lại rất cao. DePIN giải quyết vấn đề này bằng cách khuyến khích bên thứ ba cung cấp dữ liệu điều khiển từ xa thông qua mã thông báo mã hóa. Dự án Reborn xây dựng mạng lưới người điều hành từ xa toàn cầu, chuyển đổi đóng góp của họ thành tài sản số hóa token hóa, hình thành một hệ thống phi tập trung không cần xin phép - các người tham gia vừa có thể thu được lợi nhuận, vừa tham gia quản trị và hỗ trợ đào tạo robot AGI.
(2) An toàn luôn là mối quan tâm cốt lõi
Mục tiêu cuối cùng của công nghệ robot là đạt được tự động hóa hoàn toàn, nhưng như những gì được cảnh báo trong loạt phim "Kẻ hủy diệt", điều mà con người không muốn thấy nhất là sự tự chủ biến robot thành vũ khí tấn công. Các vấn đề an toàn của mô hình ngôn ngữ lớn đã gây ra sự chú ý, và khi những mô hình này có khả năng hành động thực thể, an toàn robot trở thành điều kiện tiên quyết cho sự chấp nhận của xã hội.
An ninh kinh tế là một trong những trụ cột của sự thịnh vượng trong hệ sinh thái robot. Công ty OpenMind trong lĩnh vực này đang xây dựng FABRIC - một lớp điều phối máy móc phi tập trung, thông qua chứng minh mật mã để thực hiện xác thực danh tính thiết bị, xác minh sự hiện diện vật lý và truy cập tài nguyên. Khác với việc quản lý thị trường tác vụ đơn giản, FABRIC cho phép robot tự chứng minh thông tin danh tính, vị trí địa lý và hồ sơ hành vi mà không phụ thuộc vào trung gian tập trung.
Ràng buộc hành vi và xác thực danh tính được thực hiện thông qua cơ chế trên chuỗi, đảm bảo bất kỳ ai cũng có thể kiểm tra tính tuân thủ. Robot đáp ứng tiêu chuẩn an toàn, yêu cầu chất lượng và quy định khu vực sẽ nhận được phần thưởng, trong khi những người vi phạm sẽ phải đối mặt với hình phạt hoặc bị loại khỏi cuộc chơi, từ đó xây dựng cơ chế trách nhiệm và tin tưởng trong mạng lưới robot tự trị.
Mạng tái thế chấp bên thứ ba (như Symbiotic) cũng có thể cung cấp sự bảo đảm an toàn tương đương. Mặc dù hệ thống tham số hình phạt vẫn cần được hoàn thiện, công nghệ liên quan đã bước vào giai đoạn thực tiễn. Chúng tôi dự đoán các tiêu chuẩn an toàn trong ngành sắp được hình thành, và khi đó tham số hình phạt sẽ được mô hình hóa theo những tiêu chuẩn này.
Ví dụ về kế hoạch thực hiện:
Công ty robot tham gia mạng lưới Symbiotic.
Thiết lập các tham số tịch thu có thể xác minh (chẳng hạn như "Áp dụng lực tiếp xúc của con người vượt quá 2500 Newton");
Nhà đầu tư cung cấp tiền ký quỹ để đảm bảo robot tuân thủ các tham số;
Nếu vi phạm xảy ra, tiền ký quỹ sẽ được dùng làm bồi thường cho nạn nhân.
Chế độ này vừa khuyến khích các doanh nghiệp đặt an toàn lên hàng đầu, vừa thúc đẩy mức độ chấp nhận của người tiêu dùng thông qua cơ chế bảo hiểm của quỹ staking.
Quan điểm của đội Symbiotic về lĩnh vực robot là:
Symbiotic* Khung staking tổng quát nhằm kéo dài khái niệm staking đến tất cả các lĩnh vực cần đảm bảo an toàn kinh tế, bất kể là thông qua mô hình chia sẻ hay độc lập. Các trường hợp áp dụng từ bảo hiểm đến công nghệ robot cần được thiết kế cụ thể cho từng trường hợp. Ví dụ, mạng lưới robot có thể được xây dựng hoàn toàn dựa trên khung Symbiotic, cho phép các bên liên quan cung cấp bảo đảm kinh tế cho tính toàn vẹn của mạng.
4**, Bù đắp khoảng trống trong công nghệ robot
OpenAI đã thúc đẩy sự phổ biến của AI, nhưng nền tảng của ChatGPT đã được thiết lập từ lâu. Dịch vụ đám mây đã phá vỡ sự phụ thuộc của mô hình vào sức mạnh tính toán địa phương, Huggingface đã thực hiện mô hình mã nguồn mở, và Kaggle đã cung cấp nền tảng thí nghiệm cho các kỹ sư AI. Những bước đột phá dần dần này đã góp phần vào sự phổ biến của AI.
**Khác vớiAI, lĩnh vực robot khó có thể tiếp cận khi nguồn vốn hạn chế. Để phổ biến robot, mức phát triển cần được hạ thấp đến mức độ dễ dàng tương tự như phát triển ứng dụngAI. Chúng tôi cho rằng có ba khía cạnh cần cải thiện: cơ chế tài chính, hệ thống đánh giá và hệ sinh thái giáo dục.
Tài trợ là một vấn đề khó khăn trong lĩnh vực robot. Việc phát triển chương trình máy tính chỉ cần một máy tính và tài nguyên điện toán đám mây, trong khi việc xây dựng một robot hoàn chỉnh chức năng cần phải mua các phần cứng như động cơ, cảm biến, pin, v.v., với chi phí dễ dàng vượt qua 100.000 đô la. Tính chất phần cứng này khiến việc phát triển robot kém linh hoạt hơn so với AI và có chi phí cao.
Cơ sở hạ tầng đánh giá robot trong các tình huống thực tế vẫn còn ở giai đoạn sơ khai. Lĩnh vực AI đã thiết lập một hệ thống hàm mất mát rõ ràng, việc thử nghiệm có thể hoàn toàn ảo hóa. Nhưng các chiến lược ảo xuất sắc không thể được chuyển đổi trực tiếp thành các giải pháp hiệu quả trong thế giới thực. Robot cần có cơ sở hạ tầng đánh giá các chiến lược tự chủ trong các môi trường thực tế đa dạng để có thể thực hiện tối ưu hóa lặp lại.
Khi cơ sở hạ tầng này trưởng thành, nhân tài sẽ đổ vào số lượng lớn, và robot hình người sẽ tái diễn đường cong bùng nổ của Web2. Công ty robot tiền điện tử OpenMind đang tiến về hướng này - dự án mã nguồn mở OM1 ("hệ thống Android cho robot") sẽ biến phần cứng nguyên bản thành các tác nhân thông minh có ý thức kinh tế có thể nâng cấp. Các mô-đun lập kế hoạch thị giác, ngôn ngữ và chuyển động có thể cắm và sử dụng như ứng dụng điện thoại, tất cả các bước suy diễn được trình bày bằng tiếng Anh rõ ràng, cho phép người điều hành kiểm tra hoặc điều chỉnh hành vi mà không cần tiếp xúc với firmware. Năng lực suy diễn ngôn ngữ tự nhiên này cho phép thế hệ nhân tài mới gia nhập lĩnh vực robot một cách liền mạch, đánh dấu một bước quan trọng cho nền tảng mở thúc đẩy cuộc cách mạng robot, giống như tác động tăng tốc của phong trào mã nguồn mở đối với AI.
Mật độ nhân tài quyết định quỹ đạo ngành. Hệ thống giáo dục phổ cập có cấu trúc là rất quan trọng cho việc cung cấp nhân tài trong lĩnh vực robot. Việc OpenMind niêm yết trên Nasdaq đánh dấu sự khởi đầu của một kỷ nguyên mới, nơi mà máy móc thông minh tham gia vào đổi mới tài chính và giáo dục thực thể. OpenMind** và Robostore công bố sẽ ra mắt khóa học giáo dục phổ thông dựa trên robot hình người Unitree G1 đầu tiên tại các trường công lập K-12 của Mỹ. **Khóa học này được thiết kế có tính độc lập với nền tảng, có thể thích ứng với nhiều hình thức robot khác nhau, cung cấp cơ hội thực hành cho học sinh. Tín hiệu tích cực này củng cố nhận định của chúng tôi: **Trong vài năm tới, mức độ phong phú của tài nguyên giáo dục robot sẽ ngang tầm với lĩnh vực AI. **
5**、Triển vọng tương lai**
Sự đổi mới và hiệu ứng quy mô kinh tế của mô hình Hành động Ngôn ngữ Hình ảnh (VLA) đã tạo ra những robot hình người tiết kiệm chi phí, hiệu quả và phổ quát. Khi robot kho bãi mở rộng sang thị trường tiêu dùng, an toàn, mô hình tài chính và hệ thống đánh giá trở thành những hướng khám phá quan trọng. Chúng tôi tin tưởng rằng công nghệ mã hóa sẽ thúc đẩy sự phát triển của robot thông qua ba con đường: cung cấp đảm bảo kinh tế cho an toàn, tối ưu hóa cơ sở hạ tầng sạc, nâng cao hiệu suất độ trễ và đường ống thu thập dữ liệu.