1 Formulación del Proceso de decisión de Markov

Considere un sistema de inventario a tiempo discreto, de un solo producto y que cuenta con una capacidad finita \(M>0\). Supongamos que se pretende maximizar ganancias através dedecidir cuánto producto solicitar a su proveedor a fin de solventar la demanda de sus clientes en cada período y dependiendo del stock (producto en existencia almacenado), cuya información se obtiene al realizar el inventario. Bajo tal escenario, para cada \(t\in \{0,1,2, \dotso N\}\) podemos suponer que

\(x_t\) : representa el nivel de inventario al inicio de cada periodo \(t\).
\(a_t\) : representa la cantidad de producto que se ordena al inicio del periodo \(t\).
\(\xi_t\): representa la demanda del producto durante el periodo \(t\).

Se asume que la cantidad de producto que se ordena se abastece de forma inmediata, que la demanda que no se satisface en cada periodo se pierde y que el nivel de inventario inicial es \(x_0=x \in \mathbf{X}\).

De manera que considerando un Modelo de Control de Markov \[( \mathbf{X}, \mathbf{A}, \{A(x): x \in \mathbf{X}\}, \mathbf{P},\mathbf{C})\] donde, el espacio de estados y controles son: \[\mathbf{X}=\mathbf{A}=\{0,1,2, \dotso M\}\] El conjunto de controles admisibles cuando el nivel de inventario es \(x\in\mathbf{X}\),es \[A(x)=\{0,1,2, \dotso,M-x\}\]