Robots.txt là gì? Cách sử dụng Robots.txt đúng chuẩn
Robots.txt là gì? Cách sử dụng Robots.txt đúng chuẩn là một trong những vấn đề được nhiều người quan tâm về thủ thuật máy tính. Máy tính đang dần trở nên phổ thông hơn ở mỗi gia đình, nên việc bạn sở hữu một chiếc máy tính để giải trí, phục vụ công việc là không khó. Tuy nhiên, việc sử dụng máy tính thành thạo, khắc phục và sửa chữa những lỗi xảy ra thì không phải ai cũng biết. Không cần phải mất vài năm để học tin học văn phòng, hãy ghé Motnoi.com để nâng cao trình độ mỗi ngày nhé!
Những thông tin tổng hợp dưới đây chỉ mang tính chất tham khảo.
Robots.txt là tập tin được dùng để trực tiếp hoặc để cho chương trình web những gì các trang và thư mục chỉ mục hay không chỉ số. Tập tin này phải được đặt trong thư mục gốc trên máy chủ lưu trữ trang web của bạn. Các tập tin nên được đặt tên robots.txt và cần phải có quyền đọc. Dưới đây là một ví dụ về một tập tin robots.txt.
# robots.txt file cho http://www.computerhope.com
User-agent: *
Disallow: / directory1 /
Disallow: / directory2 /
Trong ví dụ robots.txt trên, dòng đầu tiên là một tuyên bố nonexecutable mô tả các tập tin. Tiếp theo, trong dòng User-agent nói gì robot hay bot nên theo phần này của tập tin. Trong ví dụ trên, các * đại diện cho tất cả các chương trình. Cuối cùng, hai dòng tiếp theo là hai thư mục mà bạn muốn các chương trình không chỉ mục.
Nếu bạn muốn cho phép một bot để truy vấn tất cả các URL trong trang web của bạn, nhập tên của bot sau disallow: với một giá trị trống, như đã thấy trong các ví dụ dưới đây.
User-agent: Somebot *
Disallow:
Motnoi.com là blog chia sẻ những kiến thức xung quanh cuộc sống về sức khỏe, nội trợ, lập trình, marketing…Và tôi gọi website của mình là: Một Nơi!
Chúc bạn thành công!