- Cách khác: tổng hợp xác suất các trạng thái khác nhau.
- Những khó khăn với cách tiếp cận dựa trên utility
+ Các con số hình thành từ đâu?
+ Chúng ta không suy nghĩ dựa trên utility
+ Khó để mô hình các nhiệm vụ từ các thuật ngữ này
9.3 Utility đới với TILEWORLD
- Mô phỏng môi trường dạng lưới hai chiều, trong đó có các tác tử, các tấm đá lát, các vật cản, và các lỗ.
- Một tác tử có thể di chuyên theo bốn hướng, lên, xuống, trái, hoặc phải, và nếu nó ở vị trị gần với một tấm đá lát nó sẽ đẩy tấm lát.
- Các lỗ phải được lấp đầy bở các tấm lát bởi tác tử. Một tác tử ghi điểm bằng việc lấp các lỗ trống bằng tấm lát, với mục đích lấp đầy nhiều lỗ nhất có thể.
- TILEWORLD thay đổi các lỗ trống ngẫu nhiên
- Hàm utility được định nghĩa như sau:
9.4 Utility kỳ vọng và các tác tử tối ưu
- Ký hiệu P(r | Ag, Env) là xác suất lượt chạy r xảy ra khi tác tử Ag đặt trong môi trường Env.
Chú ý:
- Khi tác tử tối ưu Agopt trong một môi trường Env cực đại utility kỳ vọng
Chia sẻ với bạn bè của bạn: |