Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠng chi tiết bài giảNG



tải về 4.09 Mb.
trang38/44
Chuyển đổi dữ liệu26.11.2017
Kích4.09 Mb.
#34644
1   ...   34   35   36   37   38   39   40   41   ...   44

(Bởi vì i thích tất cả các kết quả hình thành thông qua C đối với tất cả các kết quả hình thành qua D)

3.3 Ma trận thưởng phạt



- Ta có thể mô tả kịch bản trước đây trong ma trận thưởng phạt

- Tác tử i là cột người chơi

- Tác tử j là hàng người chơi.

IV. Các chiến lược trội và cân bằng Nash

4.1 Các chiến lược trội (Dominant Strategies)

- Cho một chiến lược cụ thể nào đo (hoặc C hoặc D) của tác tử i, có một số kết quả có thể

- Ta nói s1 trội hơn s2 nếu mọi kết quả có thể khi i thực hiện s1 được thích hơn mọi kết quả có thể khi i thực hiện s2

- Một tác tử có chừng mực sẽ không bao giờ thực hiện một chiến lược trội

- Bởi vậy trong quyết định điều cần làm, ta có thể xóa bỏ các chiến lược trội

- Thật không may, luôn không có một chiến lược không trội duy nhất.

4.2 Cân bằng Nash (Nash Equilibrium)

- Nhìn chung, chúng ta sẽ nói hai chiến lược s1 và s2 là cân bằng Nash nếu:

+ với giả thiết tác tử i thực hiện s1, tác tử j có thể làm không tốt hơn thực hiện s2; và

+ với giả thiết rằng tác tử j thực hiện s2, tác tử i có thể làm không tốt hơn thực hiện s1.

- Không tác tử nào có động cơ để trệch khởi cân bằng Nash

- Không may

+ Không phải tất cả mọi kịch bản tương tác có cân bằng Nash

+ Một số kịch bản tương tác có hơn một cân bằng Nash

V. Các tương tác cạnh tranh và tổng không

- Khi preferences của các tác tử hoàn toàn đối lập, ta có các kịch bản cạnh tranh nghiêm ngặt.



- Các cuộc đọ sức tổng không khi tổng các utilities bằng 0.

- Các cuộc đọ sức tổng không trong thực tế rất hiếm, nhưng con người co xu hướng hành động trong nhiều kịch bản nếu chúng là tổng không.

VI. Song đề tù nhân

6.1 Khái quát về song đề tù nhân

- Hai người bị án chung với một tội danh và bị dữ trong các phòng riêng, không thể gặp hoặc giao tiếp. Họ được nói rằng:

+ Nếu một người thú tội và người còn lại không, thì người thú tội được thả, và người kia sẽ bị tù 3 năm

+ Nếu cả hai thú tội, mỗi người sẽ bị tù hai năm

- Cả hai biết rằng nếu không ai thú tội, thì họ sẽ bị giam 1 năm



- Ma trận thưởng phạt cho song đề tù nhân


+Trên trái: Nếu cả hai đào ngũ, thì cả hai bị phạt vì cùng đào ngũ

+ Trên phải nếu i hợp tác và j đào ngũ, i nhận được thưởng phạt của người thiếu kinh nghiệm 1, trong khi j nhận được 4.

+ Dưới trái: Nếu j hợp tác và i đào ngũ, j nhận được thưởng phạt của người thiếu kinh nghiệm 1, trong khi i nhận 4.

+ Dưới phải: Thưởng cho sự cùng hợp tác.

- Hành động có chừng mực của cá nhân là đào ngũ

Điều này đảm bảo thưởng phạt không xấu hơn 2, trong khi hợp tác đảm bảo thưởng phạt nhiều nhất là 1.

- Đào ngũ là phản ứng tốt nhất trong tất cả các chiến lược: cả hai tác tử đào ngũ và nhận được thưởng phạt =2.

- Nhưng trực giác mách bảo đây không phải là kết quả tốt nhất.

Nếu cả hai hợp tác mỗi người nhận được thưởng phạt = 3.

- Nghịch lý rõ ràng này là vấn đề cơ bản của các tương tác đa tác tử

Nó có vẻ ám chỉ rằng hợp tác sẽ không xảy ra trong các xã hội của các tác tử tư lợi.

- Các ví dụ:

+ Giảm vũ khí hạt nhân (“Tại sao tôi không giữ vũ khí của mình…”

+ Các hệ thống giao thông miễn phí – giao thông công cộng

+ ở UK – bản quyền Tivi

- Song đề tù nhân ở khắp nơi

- Chúng ta có thể phục hồi lại hợp tác không?

- Các kết luận một số đã rút ra từ phân tích sau:

+ khái niệm lý thuyết trò chơi về hành động chừng mực là sai!

+ phần nào đó song đề tù nhân được phát biểu sai

- Các lập luận lấy lại hợp tác:

+ Chúng ta không phải tất cả đều là Machiavelli!

+ Tù nhân kia là anh em sinh đôi!

+ Bóng tối của tương lai…

6.2 Song đề tù nhân lặp lại (The Iterated Prisoner’s Dilemma)

- Một câu trả lời: chơi trò chơi hơn một lần

- Nếu bạn biết bạn sẽ gặp lại đối thủ, thì động cơ sẽ đào ngũ xuất hiện

- Hợp tác là lựa chọn chừng mực trong song đề tù nhân lặp lại

6.3 Quy nạp lùi

- Nhưng giả sử cả hai bạn biết rằng mình sẽ chơi trò chơi chính xác n lần. Vào vòng n - 1, bạn sẽ có động cơ đào ngũ, để đạt được thêm một chút thưởng phạt. Nhưng điều này khiến vòng n-2 vòng “thực” cuối cùng, và bởi vậy ban cũng có động lực đảo ngũ ở đó. Đây là bài toán quy nạp về phía sau.

- Chơi prisoner’s dilemma với một số lượng vòng thường được biết trước, cố định, hữu hạn, đào ngũ là chiến lược tốt nhất.

6.4 Axelrod’s Tournament

- Giả sử bạn chơi song đề tù nhân với một loạt đối thủ..Chiến lược nào bạn nên chọn, để cực đại thưởng phạt của bạn?

- Axelrod (1984) đã nghiên cứu vấn đề này, với một cuộc đấu trên máy tính cho các chương trình chơi lương đề dilem của tù nhân.

- Các chiến lược

+ ALLD: Luôn đào ngữ - chiến lược hawk

+ TIT-FOR-TAT: Vòng u = 0, hợp tác; vòng u > 0, thực hiện điều đối thủ làm trong vòng u-1.

+ TESTER: Vòng 1, đào ngũ. Nếu đối thủ đã trả đũa thì chơi TIT-FOR-TAT. Trái lại thực hiện rải rác hợp tác và đào ngũ.

+ JOSS: như TIT-FOR-TAT, trừ việc đào ngũ theo chu kỳ.

- Axelrod đề xuất những luật sau để thành công trong vòng đấu

+ Đừng đố kị. Đừng chơi nếu nó đã là tổng không!

+ Chơi đẹp: Bắt đầu bằng hợp tác, và đáp lại việc hợp tác

+ Trả miếng thích hợp: luôn lập tức trừng phạt việc đào ngũ, nhưng sử dụng lực có cân nhắc – không làm quá.

+ Không giữ hận thù: Luôn lập tức đáp lại việc hợp tác.

6.5 Game of Chicken

- Xem xét một loại khác về đọ sức - the game of chicken



- Sự khác biệt đối với song đề tù nhân:

Cùng đào ngũ là kết quá đáng ngại nhất

- Các chiến lược (coop, def) và (def, coop) là cân bằng Nash

6.6 Các trò chơi đối xứng 2x2 khác

- Cho 4 kết quả có thể của các trò chơi hợp tác/đào ngũ (đối xứng), có 24 trật tự có thể của các kết quả.



+ Hợp tác chiếm ưu thế.

+ Bế tắc. Bạn sẽ luôn thực hiện tốt nhất bằng cách đào ngũ



+ Song đề tù nhân



+ Chicken



+ Săn hươu (Stag hunt)






Каталог: files -> FileMonHoc
FileMonHoc -> NGÂn hàng câu hỏi lập trình cơ BẢn nhóm câu hỏI 2 ĐIỂM
FileMonHoc -> CHƯƠng 2 giới thiệu về LÝ thuyết số
FileMonHoc -> CÁc hệ MẬt khoá CÔng khai kháC
FileMonHoc -> BỘ MÔn duyệt chủ nhiệm Bộ môn
FileMonHoc -> Khoa công nghệ thông tin cộng hòa xã HỘi chủ nghĩa việt nam
FileMonHoc -> Chủ nhiệm Bộ môn Ngô Thành Long ĐỀ CƯƠng chi tiết bài giảNG
FileMonHoc -> Chủ nhiệm Bộ môn Phan Nguyên Hải ĐỀ CƯƠng chi tiết bài giảNG
FileMonHoc -> Khoa: CÔng nghệ thông tin cộng hòa xã HỘi chủ nghĩa việt nam
FileMonHoc -> MẬt mã khóA ĐỐi xứng lý thuyết cơ bản của Shannon
FileMonHoc -> Khoa công nghệ thông tin bài giảng LẬp trình cơ BẢn biên soạn

tải về 4.09 Mb.

Chia sẻ với bạn bè của bạn:
1   ...   34   35   36   37   38   39   40   41   ...   44




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương