[Study with TrungDo] Pt2 Game Theory – Bài toán người tù (Prisoner’s dilemma)

5 min read

game theory

Game Theory with Prisoner’s dilemma

Bài toán Song Đề Tù Nhân là gì?

Bài toán Song Đề Tù Nhân, hay còn gọi là Prisoner’s Dilemma trong tiếng Anh, là một tình huống trong lý thuyết trò chơi, nổi tiếng vì thể hiện sự căng thẳng giữa quyết định hợp tác và cạnh tranh. Trong bài toán này, hai người bị bắt giam và đối diện với sự lựa chọn giữa nói thật (hợp tác) hoặc nói dối (cạnh tranh) khi đối mặt với cơ hội hình phạt hoặc thưởng dựa vào lựa chọn của đối phương.

Logic:

Hai kẻ bị tình nghi là tội phạm bị cảnh sát bắt. Cảnh sát không có đủ chứng cớ để kết án họ, và đã cách ly họ. Cảnh sát gặp từng người một và làm cùng thoả thuận: nếu một người đổ tội mà người kia im lặng, người im lặng sẽ bị phạt 10 năm tù và người đổ tội sẽ được thả tự do. Nếu cả hai đều im lặng, cảnh sát chỉ phạt được mỗi tù nhân 6 tháng tù vì một tội nhỏ khác. Nếu cả hai đều phản bội, đổ tội cho đối phương, mỗi người sẽ bị phạt 2 năm.

Trên phương diện của tù nhân:

  • Tù nhân A đánh giá tính cách của B để xem B sẽ làm gì:
    • Nếu B bình thường là một người không đáng tin cậy —> chắc chắn hắn sẽ đổ tội cho mình. Nếu mình im lặng thì mình toang —-> thôi cũng đành phải đổ tội lại cho B.
    • Nếu B bình thường là một người rất thân với mình, và rất tin tưởng mình. 2 anh em ta cùng nhìn thấy lựa chọn im lặng thì là ổn nhất —> B chắc chắn sẽ chọn im lặng —> Ơ mà như thế thì cho B nó chết đi, mình đổ tội thì mình được thả mà.
  • Tù nhân B cũng nghĩ tương tự như vậy.

Trong cả 2 trường hợp, kết quả cuối cùng đều dẫn đến việc 2 ông đổ tội nhau, mỗi ông chịu 2 năm tù. Trên view của “quyền lợi tổng thể” của 2 ông A và B, thì rõ ràng đây không phải là kết quả tốt nhất. Nhưng trên việc lựa chọn trên suy nghĩ “quyền lợi cá nhân”, thì lại là kết quả tốt nhất.

Suy nghĩ:

Nếu coi “im lặng” là hợp tác, “đổ tội” là phá hoại. Vậy trong thực tế, nếu chúng ta được quyền thiết lập các yếu tố ngoại cảnh khác, thì có cách nào để biến output của bài toán trên thành “cả 2hợp tác” không.

Giả sử bài toán về điều kiện vẫn như thế này (ngoại cảnh về kết quả, sau khi người chơi đưa ra lựa chọn im lặng hoặc hợp tác).

Chúng ta thử tiếp cận trên 1 số trường hợp sau:

Thông tin

  • Trong bài toán gốc, 2 người đang bị trong trường hợp gốc là bị nhốt và không giao tiếp —> cả 2 phải suy đoán và lựa chọn.
    • Giả sử giờ là bài toán thông tin mở, ông A được quyền nói, và B biết. Liệu mọi chuyện có khác không.
    • KHÔNG. Khi A nói gì đi nữa, thì B vẫn đổ tội, thì vẫn ngon hơn.

Nhìn vào lâu dài

  • Nếu bài toán này không phải là bài toán chỉ diễn ra 1 lần, mà là bài toán diễn ra nhiều lần liên tục, liệu 2 người có chuyển sang hợp tác không.
    • Trong trường hợp bài toán Prisoner’s Dilemma diễn ra trong nhiều vòng (ví dụ: 100 vòng), các người chơi có cơ hội học từ lịch sử tương tác trước đó và điều chỉnh chiến lược của họ. Kết quả có thể khác biệt so với trường hợp chỉ có một vòng duy nhất, tùy thuộc vào cách người chơi xử lý tình huống.
    • Trong các vòng đầu tiên, người chơi có thể thử nghiệm các chiến lược khác nhau. Tuy nhiên, nếu họ nhận ra rằng hợp tác (C) mang lại lợi ích lớn hơn cho cả hai bên trong các vòng trước đó, họ có thể dần dần hình thành một mô hình hợp tác và ổn định ở lựa chọn C trong các vòng sau.
    • Tuy nhiên, sự không chắc chắn luôn tồn tại trong trò chơi này. Có thể có một số lần người chơi quyết định cạnh tranh (D) để tận dụng lợi ích ngắn hạn hoặc do một sự hiểu lầm. Nhưng nếu họ tiếp tục cạnh tranh, họ có thể thất bại và họ có thể chuyển trở lại hợp tác sau đó.
    • Trong tổng hợp, trong một loạt các vòng chơi Prisoner’s Dilemma, kết quả có thể đa dạng, nhưng thường xuyên sẽ thấy một xu hướng hợp tác ổn định khi người chơi học từ kinh nghiệm của họ và nhận ra rằng hợp tác mang lại lợi ích lớn hơn trong tương tác dài hạn. Tuy nhiên, sự không chắc chắn vẫn luôn có thể xảy ra, và quyết định cuối cùng của mỗi vòng phụ thuộc vào chiến lược cụ thể của từng người chơi

Bài học

  • Khi xác định hợp tác với 1 bên đối tác, nên cùng nhìn tới một cách làm việc để có sự hợp tác lâu dài.
  • Sự hợp tác lâu dài được định nghĩa và đánh giá dựa trên “nhiều vòng output”, để 2 bên hiểu nhau hơn, hiểu được chiến lược phát triển của nhau hơn. Ví dụ: Chơi 100 vòng sẽ có tỷ lệ hợp tác nhau cao hơn là người chơi chỉ chơi 3 vòng.
  • Trong 1 số trường hợp mà “quy tắc lợi ích lâu dài” không được đảm bảo, mà chỉ có “lợi ích cá nhân ngắn hạn”, thì việc tin đối tác quá mức, và take action trước, có thể đôi khi Backfire. Tốt nhất nên phân tích kĩ cho các lựa chọn của mình, và cần chứng minh với đối tác là “nếu làm việc với mình thì sẽ có lợi ích lâu dài”.
Avatar photo

Leave a Reply

Your email address will not be published. Required fields are marked *