Cuộc chiến trình duyệt lần thứ ba đang âm thầm diễn ra. Nhìn lại lịch sử, từ Netscape đến IE, rồi đến Firefox và Chrome, cuộc tranh giành trình duyệt luôn là hình ảnh thu nhỏ của quyền kiểm soát nền tảng và sự biến đổi của các mô hình công nghệ. Chrome đã trở thành bá chủ nhờ vào việc cập nhật nhanh chóng và sự liên kết sinh thái, Google đã hình thành một vòng khép kín của cổng thông tin thông qua cấu trúc hai độc quyền giữa tìm kiếm và trình duyệt.
Nhưng cấu trúc này đang bị lung lay. Sự nổi lên của mô hình ngôn ngữ lớn (LLM) khiến ngày càng nhiều người dùng hoàn thành nhiệm vụ trên trang kết quả tìm kiếm mà không cần nhấp chuột, làm giảm hành vi nhấp chuột vào các trang web truyền thống. Đồng thời, tin đồn về việc Apple có thể thay thế công cụ tìm kiếm mặc định trong Safari đã đe dọa thêm vào nền tảng lợi nhuận của Alphabet, thị trường đã bắt đầu bộc lộ sự bất an đối với "chính thống tìm kiếm".
Trình duyệt cũng đang phải đối mặt với sự chuyển mình về vai trò. Nó không chỉ là công cụ để hiển thị trang web, mà còn là một container tập hợp nhiều khả năng như nhập dữ liệu, hành vi người dùng, danh tính riêng tư, v.v. Mặc dù AI Agent rất mạnh, nhưng để thực hiện các tương tác trang phức tạp, gọi dữ liệu danh tính cục bộ và kiểm soát các yếu tố trang web, vẫn cần dựa vào ranh giới tin cậy và hộp cát chức năng của trình duyệt. Trình duyệt đang chuyển từ giao diện con người sang nền tảng gọi hệ thống cho Agent.
Điều thực sự có thể làm thay đổi hoàn toàn cấu trúc trình duyệt hiện tại không phải là một "Chrome tốt hơn", mà là một kiến trúc tương tác hoàn toàn mới: chuyển từ việc hiển thị thông tin sang gọi nhiệm vụ. Trong tương lai, trình duyệt cần được thiết kế cho AI Agent - không chỉ có thể đọc, mà còn có thể viết và thực thi. Các dự án như Browser Use đang cố gắng làm rõ ngữ nghĩa cấu trúc trang, biến giao diện trực quan thành văn bản có cấu trúc có thể được LLM gọi, thực hiện việc ánh xạ từ trang đến lệnh, giảm đáng kể chi phí tương tác.
Các dự án chính trên thị trường đã bắt đầu sắp xếp: Perplexity xây dựng trình duyệt gốc Comet, sử dụng AI để thay thế kết quả tìm kiếm truyền thống; Brave kết hợp bảo vệ quyền riêng tư với suy luận địa phương, sử dụng LLM để tăng cường chức năng tìm kiếm và chặn; trong khi các dự án gốc tiền điện tử như Donut nhắm đến một lối vào mới cho sự tương tác giữa AI và tài sản trên chuỗi. Những dự án này có đặc điểm chung là: tái cấu trúc đầu vào của trình duyệt, thay vì làm đẹp lớp đầu ra của nó.
Đối với các nhà khởi nghiệp, cơ hội nằm ở mối quan hệ tam giác giữa đầu vào, cấu trúc và đại lý. Trình duyệt như một giao diện gọi Agent của thế giới trong tương lai, có nghĩa là ai có thể cung cấp các "khối năng lực" có cấu trúc, có thể gọi và đáng tin cậy, người đó có thể trở thành một phần của nền tảng thế hệ mới. Từ SEO đến AEO( Agent Engine Optimization), từ lưu lượng trang đến gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đang được tái cấu trúc. Cuộc chiến trình duyệt lần thứ ba diễn ra ở "đầu vào" chứ không phải "trình diễn"; người quyết định thắng bại không còn là ai thu hút được sự chú ý của người dùng, mà là ai giành được lòng tin của Agent, có được cổng vào để gọi.
Lời khuyên cho các nhà khởi nghiệp
Là một doanh nhân, bạn cần nhận ra rằng trình duyệt vẫn là "cổng tổng" lớn nhất chưa được tái cấu trúc trong thế giới internet. Sự đổi mới thực sự có tiềm năng cách mạng là ở "bên nhập" - cách để AI Agent chủ động gọi sản phẩm của bạn để hoàn thành các nhiệm vụ cụ thể. Điều này sẽ quyết định xem sản phẩm có thể tích hợp vào hệ sinh thái Agent, nhận được lưu lượng và phân phối giá trị hay không.
Tìm kiếm thời đại拼"nhấp chuột"; thời đại代理拼"gọi". Tưởng tượng lại sản phẩm như các thành phần API, để các tác nhân thông minh không chỉ có thể "hiểu" nó, mà còn có thể "gọi" nó. Chú trọng vào ba chiều:
Tiêu chuẩn hóa cấu trúc giao diện: Đảm bảo sản phẩm "có thể gọi được". Cân nhắc xem cấu trúc thông tin có thể được tiêu chuẩn hóa và trừu tượng hóa thành schema rõ ràng hay không, các thao tác chính có thể được mô tả bằng DOM có ngữ nghĩa hoặc ánh xạ JSON hay không, có cung cấp máy trạng thái để cho Agent tái hiện quy trình hành vi của người dùng hay không.
Danh tính và quyền truy cập: Giúp Agent "vượt qua rào cản niềm tin". Đặc biệt trong bối cảnh Web3, trở thành MCP(Multi Capability Platform) của thế giới blockchain, cung cấp lớp lệnh chung hoặc tập hợp giao diện hợp đồng chuẩn hóa.
Hiểu lại cơ chế lưu lượng: chuyển từ SEO sang AEO/ATF. Sản phẩm cần có độ phân giải nhiệm vụ rõ ràng, thực hiện tối ưu hóa Agent hoặc điều phối nhiệm vụ. Đơn giản hóa quy trình đăng ký, cung cấp giao diện thời gian thực, thích ứng với cú pháp gọi của các khung LLM khác nhau.
Dự án khởi nghiệp trong tương lai không phải là tái tạo trình duyệt, mà là làm cho trình duyệt hiện có phục vụ cho Agent, xây dựng cầu nối cho thế hệ "dòng lệnh" mới. Xây dựng "ngữ pháp giao diện" để Agent gọi thế giới, trở thành một mắt xích trong chuỗi tín nhiệm của các trí tuệ nhân tạo, xây dựng " lâu đài API" cho mô hình tìm kiếm tiếp theo. Thời đại Web3 + AI Agent, dựa vào chuỗi gọi để nắm bắt ý định thực thi của Agent, thay vì dựa vào UI để thu hút sự chú ý của người dùng.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
18 thích
Phần thưởng
18
5
Chia sẻ
Bình luận
0/400
ChainChef
· 07-17 02:20
smh công thức tìm kiếm của google đang trở nên hơi nhàm chán... đã đến lúc thêm một chút gia vị LLM tươi mới vào nồi súp trình duyệt này
Xem bản gốcTrả lời0
AirdropCollector
· 07-17 02:17
IE thật sự sắp chết rồi
Xem bản gốcTrả lời0
CryptoSourGrape
· 07-17 02:12
Ôi, nếu tôi biết Google tuyệt như vậy, thì hồi đó sao tôi không bán thận mua một ít cổ phiếu nhỉ.
AI tái định hình cấu trúc trình duyệt: từ giao diện người dùng đến nền tảng gọi Agent
Cấu trúc mới của trình duyệt trong thời đại AI
Cuộc chiến trình duyệt lần thứ ba đang âm thầm diễn ra. Nhìn lại lịch sử, từ Netscape đến IE, rồi đến Firefox và Chrome, cuộc tranh giành trình duyệt luôn là hình ảnh thu nhỏ của quyền kiểm soát nền tảng và sự biến đổi của các mô hình công nghệ. Chrome đã trở thành bá chủ nhờ vào việc cập nhật nhanh chóng và sự liên kết sinh thái, Google đã hình thành một vòng khép kín của cổng thông tin thông qua cấu trúc hai độc quyền giữa tìm kiếm và trình duyệt.
Nhưng cấu trúc này đang bị lung lay. Sự nổi lên của mô hình ngôn ngữ lớn (LLM) khiến ngày càng nhiều người dùng hoàn thành nhiệm vụ trên trang kết quả tìm kiếm mà không cần nhấp chuột, làm giảm hành vi nhấp chuột vào các trang web truyền thống. Đồng thời, tin đồn về việc Apple có thể thay thế công cụ tìm kiếm mặc định trong Safari đã đe dọa thêm vào nền tảng lợi nhuận của Alphabet, thị trường đã bắt đầu bộc lộ sự bất an đối với "chính thống tìm kiếm".
Trình duyệt cũng đang phải đối mặt với sự chuyển mình về vai trò. Nó không chỉ là công cụ để hiển thị trang web, mà còn là một container tập hợp nhiều khả năng như nhập dữ liệu, hành vi người dùng, danh tính riêng tư, v.v. Mặc dù AI Agent rất mạnh, nhưng để thực hiện các tương tác trang phức tạp, gọi dữ liệu danh tính cục bộ và kiểm soát các yếu tố trang web, vẫn cần dựa vào ranh giới tin cậy và hộp cát chức năng của trình duyệt. Trình duyệt đang chuyển từ giao diện con người sang nền tảng gọi hệ thống cho Agent.
Điều thực sự có thể làm thay đổi hoàn toàn cấu trúc trình duyệt hiện tại không phải là một "Chrome tốt hơn", mà là một kiến trúc tương tác hoàn toàn mới: chuyển từ việc hiển thị thông tin sang gọi nhiệm vụ. Trong tương lai, trình duyệt cần được thiết kế cho AI Agent - không chỉ có thể đọc, mà còn có thể viết và thực thi. Các dự án như Browser Use đang cố gắng làm rõ ngữ nghĩa cấu trúc trang, biến giao diện trực quan thành văn bản có cấu trúc có thể được LLM gọi, thực hiện việc ánh xạ từ trang đến lệnh, giảm đáng kể chi phí tương tác.
Các dự án chính trên thị trường đã bắt đầu sắp xếp: Perplexity xây dựng trình duyệt gốc Comet, sử dụng AI để thay thế kết quả tìm kiếm truyền thống; Brave kết hợp bảo vệ quyền riêng tư với suy luận địa phương, sử dụng LLM để tăng cường chức năng tìm kiếm và chặn; trong khi các dự án gốc tiền điện tử như Donut nhắm đến một lối vào mới cho sự tương tác giữa AI và tài sản trên chuỗi. Những dự án này có đặc điểm chung là: tái cấu trúc đầu vào của trình duyệt, thay vì làm đẹp lớp đầu ra của nó.
Đối với các nhà khởi nghiệp, cơ hội nằm ở mối quan hệ tam giác giữa đầu vào, cấu trúc và đại lý. Trình duyệt như một giao diện gọi Agent của thế giới trong tương lai, có nghĩa là ai có thể cung cấp các "khối năng lực" có cấu trúc, có thể gọi và đáng tin cậy, người đó có thể trở thành một phần của nền tảng thế hệ mới. Từ SEO đến AEO( Agent Engine Optimization), từ lưu lượng trang đến gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đang được tái cấu trúc. Cuộc chiến trình duyệt lần thứ ba diễn ra ở "đầu vào" chứ không phải "trình diễn"; người quyết định thắng bại không còn là ai thu hút được sự chú ý của người dùng, mà là ai giành được lòng tin của Agent, có được cổng vào để gọi.
Lời khuyên cho các nhà khởi nghiệp
Là một doanh nhân, bạn cần nhận ra rằng trình duyệt vẫn là "cổng tổng" lớn nhất chưa được tái cấu trúc trong thế giới internet. Sự đổi mới thực sự có tiềm năng cách mạng là ở "bên nhập" - cách để AI Agent chủ động gọi sản phẩm của bạn để hoàn thành các nhiệm vụ cụ thể. Điều này sẽ quyết định xem sản phẩm có thể tích hợp vào hệ sinh thái Agent, nhận được lưu lượng và phân phối giá trị hay không.
Tìm kiếm thời đại拼"nhấp chuột"; thời đại代理拼"gọi". Tưởng tượng lại sản phẩm như các thành phần API, để các tác nhân thông minh không chỉ có thể "hiểu" nó, mà còn có thể "gọi" nó. Chú trọng vào ba chiều:
Tiêu chuẩn hóa cấu trúc giao diện: Đảm bảo sản phẩm "có thể gọi được". Cân nhắc xem cấu trúc thông tin có thể được tiêu chuẩn hóa và trừu tượng hóa thành schema rõ ràng hay không, các thao tác chính có thể được mô tả bằng DOM có ngữ nghĩa hoặc ánh xạ JSON hay không, có cung cấp máy trạng thái để cho Agent tái hiện quy trình hành vi của người dùng hay không.
Danh tính và quyền truy cập: Giúp Agent "vượt qua rào cản niềm tin". Đặc biệt trong bối cảnh Web3, trở thành MCP(Multi Capability Platform) của thế giới blockchain, cung cấp lớp lệnh chung hoặc tập hợp giao diện hợp đồng chuẩn hóa.
Hiểu lại cơ chế lưu lượng: chuyển từ SEO sang AEO/ATF. Sản phẩm cần có độ phân giải nhiệm vụ rõ ràng, thực hiện tối ưu hóa Agent hoặc điều phối nhiệm vụ. Đơn giản hóa quy trình đăng ký, cung cấp giao diện thời gian thực, thích ứng với cú pháp gọi của các khung LLM khác nhau.
Dự án khởi nghiệp trong tương lai không phải là tái tạo trình duyệt, mà là làm cho trình duyệt hiện có phục vụ cho Agent, xây dựng cầu nối cho thế hệ "dòng lệnh" mới. Xây dựng "ngữ pháp giao diện" để Agent gọi thế giới, trở thành một mắt xích trong chuỗi tín nhiệm của các trí tuệ nhân tạo, xây dựng " lâu đài API" cho mô hình tìm kiếm tiếp theo. Thời đại Web3 + AI Agent, dựa vào chuỗi gọi để nắm bắt ý định thực thi của Agent, thay vì dựa vào UI để thu hút sự chú ý của người dùng.