[B-16-24] A Study on Reinforcement Learning-based Window Flow Control Supporting Heterogeneous Utility Functions
Keywords:q学習
機械学習を利用したトラヒック制御方式の研究が活発に行なわれている。我々はこれまで、Q 学習に基づく AIMD 型のウィンドウフロー制御方式 Q-AIMD を提案した。Q-AIMD ではすべてのフローが同一の効用関数 (スループット最大化) を持っていることを前提としているが、それぞれのフローの効用関数が同一とは限らない。強化学習によって、各フローの効用関数の違いを反映できるウィンドウフロー制御方式 Q-HAIMD を実現する。Q-AIMD を複数の効用関数に対応できるように拡張する。具体的には、2 種類の効用関数 (スループット最大化: U(x) = x、一定以上のスループットの実現: U(x) = min(x, c)) を対象とし、それぞれの効用関数に応じて Q 学習における報酬を決定する。
Abstract password authentication.
Password is required to view the abstract. Please enter a password to authenticate.