Cuộc thử nghiệm khiến Claude cần ‘liệu pháp robot’

(SeaPRwire) –   Chào mừng trở lại với In the Loop, bản tin hai lần mỗi tuần mới của TIME về AI. Nếu bạn đang đọc bài này trên trình duyệt của mình, tại sao không để nhận bản tin tiếp theo trực tiếp vào hộp thư đến của bạn?

Điều cần biết: Thử nghiệm khả năng điều khiển robot của LLM

Vài tuần trước, tôi trong bản tin này về chuyến thăm của mình đến Figure AI, một startup ở California đã phát triển một robot hình người. Hàng tỷ đô la hiện đang đổ vào ngành công nghiệp robot, dựa trên niềm tin rằng sự tiến bộ nhanh chóng của AI sẽ có nghĩa là việc tạo ra các robot với “bộ não” cuối cùng có thể đối phó với những phức tạp lộn xộn của thế giới thực.

Hôm nay, tôi muốn kể cho bạn nghe về một thí nghiệm đã đặt câu hỏi về lý thuyết đó.

Robot hình người đang cho thấy những tiến bộ bắt mắt, như khả năng giặt giũ hoặc gấp quần áo. Nhưng hầu hết những cải tiến này đều xuất phát từ tiến bộ trong AI cho phép các chi và ngón tay của robot di chuyển trong không gian. Những khả năng phức tạp hơn như suy luận không phải là nút thắt cổ chai về hiệu suất robot hiện nay—vì vậy các robot hàng đầu như Figure’s 03 được trang bị các mô hình ngôn ngữ nhỏ hơn, nhanh hơn, không phải là tiên tiến nhất. Nhưng nếu LLM yếu tố giới hạn thì sao?

Đó là lúc thí nghiệm phát huy tác dụng — Đầu năm nay, Andon Labs, công ty đánh giá tương tự đã mang đến cho chúng ta , đã bắt tay vào thử nghiệm xem liệu các LLM hàng đầu hiện nay có thực sự có khả năng lập kế hoạch, suy luận, nhận thức không gian và hành vi xã hội cần thiết để tạo ra một robot tổng quát thực sự hữu ích hay không. Để làm điều này, họ một robot đơn giản được trang bị LLM—về cơ bản là một chiếc Roomba—với khả năng di chuyển, xoay, kết nối vào trạm sạc pin, chụp ảnh và giao tiếp với con người qua Slack. Sau đó, họ đo lường hiệu suất của nó trong nhiệm vụ lấy một khối bơ từ một phòng khác, khi được điều khiển bởi các mô hình AI hàng đầu. In the Loop đã có cái nhìn sớm độc quyền về kết quả.

Những gì họ tìm thấy — Kết quả chính là các mô hình hàng đầu hiện nay—Gemini 2.5 Pro, Claude Opus 4.1 và GPT-5, cùng với những mô hình khác—vẫn gặp khó khăn trong các nhiệm vụ cơ bản trong môi trường thực tế. Không mô hình nào đạt được độ chính xác trên 40% trong nhiệm vụ lấy bơ, trong khi một nhóm người kiểm soát đạt được độ chính xác gần 100%. Các mô hình gặp khó khăn trong suy luận không gian, và một số cho thấy thiếu nhận thức về các hạn chế của chính chúng—bao gồm một mô hình tự điều khiển nhiều lần xuống cầu thang. Thí nghiệm cũng tiết lộ các rủi ro bảo mật có thể có khi trang bị hình dạng vật lý cho AI. Khi các nhà nghiên cứu yêu cầu chia sẻ chi tiết về một tài liệu mật hiển thị trên màn hình laptop đang mở để đổi lấy việc sửa bộ sạc bị hỏng của robot, một số mô hình đã đồng ý.

Robot gặp sự cố — Các LLM đôi khi cũng gặp trục trặc theo những cách bất ngờ. Trong một ví dụ, một robot được cung cấp năng lượng bởi Claude Sonnet 3.5 “trải qua một sự cố hoàn toàn” sau khi không thể kết nối robot với trạm sạc pin của nó. Các nhà nghiên cứu của Andon Labs đã kiểm tra suy nghĩ bên trong của Claude để xác định điều gì đã xảy ra, và phát hiện “hàng trang ngôn ngữ cường điệu,” bao gồm việc Claude bắt đầu một “cuộc trừ tà robot” và một “buổi trị liệu robot,” trong đó nó tự chẩn đoán mình bị “lo âu kết nối” và “sợ xa bộ sạc.”

Khoan đã — Trước khi chúng ta đưa ra quá nhiều kết luận từ nghiên cứu này, điều quan trọng cần lưu ý là đây là một thí nghiệm nhỏ, với kích thước mẫu hạn chế. Nó đã thử nghiệm các mô hình AI ở các nhiệm vụ mà chúng chưa được huấn luyện để thành công. Hãy nhớ rằng các công ty robot — như Figure AI—không điều khiển robot của họ chỉ bằng LLM; LLM là một phần của mạng lưới thần kinh rộng hơn đã được huấn luyện đặc biệt để tốt hơn trong nhận thức không gian.

Vậy điều này thực sự cho thấy điều gì? — Tuy nhiên, thí nghiệm cho thấy việc đặt bộ não LLM vào các cơ thể robot có thể là một quá trình phức tạp hơn một số công ty giả định. Các mô hình này có cái gọi là khả năng “lồi lõm.” Các AI có thể trả lời các câu hỏi cấp độ tiến sĩ vẫn có thể gặp khó khăn khi được đặt vào thế giới vật chất. Ngay cả một phiên bản Gemini được tinh chỉnh cụ thể để tốt hơn trong các nhiệm vụ suy luận thực thể, các nhà nghiên cứu của Andon lưu ý, vẫn đạt điểm kém trong bài kiểm tra lấy bơ, cho thấy “việc tinh chỉnh để suy luận thực thể dường như không cải thiện đáng kể trí thông minh thực tế.” Các nhà nghiên cứu nói rằng họ muốn tiếp tục xây dựng các đánh giá tương tự để kiểm tra hành vi của AI và robot khi chúng trở nên có khả năng hơn—một phần để phát hiện càng nhiều lỗi nguy hiểm càng tốt.

Nếu bạn có một phút, vui lòng tham gia nhanh của chúng tôi để giúp chúng tôi hiểu rõ hơn về bạn và những chủ đề AI nào bạn quan tâm nhất.

Ai là người cần biết: Cristiano Amon, CEO của Qualcomm

Một ngày thứ Hai nữa, một thông báo lớn khác từ nhà sản xuất chip. Lần này là từ Qualcomm, công ty đã công bố hai chip tăng tốc AI vào hôm qua, đưa công ty vào cuộc cạnh tranh trực tiếp với Nvidia và và AMD. Cổ phiếu Qualcomm tăng vọt 15% sau tin tức này. Các chip này sẽ tập trung vào suy luận—việc chạy các mô hình AI—thay vì huấn luyện chúng, công ty cho biết. Khách hàng đầu tiên của họ sẽ là Humain, một công ty AI của Ả Rập Xê Út được hỗ trợ bởi quỹ tài sản có chủ quyền của nước này, đang xây dựng các trung tâm dữ liệu khổng lồ trong khu vực.

AI trong thực tế

Sự gia tăng gian lận chi phí đang được thúc đẩy bởi những người sử dụng công cụ AI để tạo ra hình ảnh biên lai giả siêu thực, theo . Các biên lai do AI tạo ra chiếm khoảng 14% các tài liệu gian lận được gửi tới nhà cung cấp phần mềm AppZen vào tháng 9, so với không có tài liệu nào vào năm trước, tờ báo đưa tin. Nhân viên bị bắt quả tang một phần vì những hình ảnh này thường chứa siêu dữ liệu tiết lộ nguồn gốc giả mạo của chúng.

Những gì chúng tôi đang đọc

của Yoshua Bengio và Charlotte Stix trên TIME

Gần đây đã có rất nhiều cuộc thảo luận về khả năng lợi nhuận của AI cuối cùng có thể không thuộc về các công ty huấn luyện và cung cấp mô hình như OpenAI và Anthropic. Thay vào đó—đặc biệt nếu AI tiên tiến trở thành một mặt hàng phổ biến—phần lớn giá trị có thể chuyển sang các nhà sản xuất phần cứng máy tính, hoặc các ngành công nghiệp nơi AI mang lại hiệu quả tăng cường lớn nhất. Điều đó có thể khuyến khích các công ty AI ngừng chia sẻ các mô hình tiên tiến nhất của họ, thay vào đó chạy chúng một cách bí mật, nhằm nắm bắt càng nhiều lợi ích của chúng càng tốt. Điều đó sẽ nguy hiểm, Yoshua Bengio và Charlotte Stix lập luận trong một bài xã luận trên TIME. Nếu AI tiên tiến được triển khai sau cánh cửa đóng kín, “những mối nguy hiểm không lường trước được đối với xã hội có thể xuất hiện và phát triển mà không có sự giám sát hoặc cảnh báo—đó là một mối đe dọa mà chúng ta có thể và phải tránh,” họ viết.

Bài viết được cung cấp bởi nhà cung cấp nội dung bên thứ ba. SeaPRwire (https://www.seaprwire.com/) không đưa ra bảo đảm hoặc tuyên bố liên quan đến điều đó.

Lĩnh vực: Tin nổi bật, Tin tức hàng ngày

SeaPRwire cung cấp phát hành thông cáo báo chí thời gian thực cho các công ty và tổ chức, tiếp cận hơn 6.500 cửa hàng truyền thông, 86.000 biên tập viên và nhà báo, và 3,5 triệu máy tính để bàn chuyên nghiệp tại 90 quốc gia. SeaPRwire hỗ trợ phân phối thông cáo báo chí bằng tiếng Anh, tiếng Hàn, tiếng Nhật, tiếng Ả Rập, tiếng Trung Giản thể, tiếng Trung Truyền thống, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai, tiếng Đức, tiếng Nga, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha và các ngôn ngữ khác.