1  Formulación del Proceso de decisión de Markov

Considere un sistema de inventario a tiempo discreto, de un solo producto y que cuenta con una capacidad finita \(M>0\). Supongamos que se pretende maximizar ganancias através dedecidir cuánto producto solicitar a su proveedor a fin de solventar la demanda de sus clientes en cada período y dependiendo del stock (producto en existencia almacenado), cuya información se obtiene al realizar el inventario. Bajo tal escenario, para cada \(t\in \{0,1,2, \dotso N\}\) podemos suponer que

Se asume que la cantidad de producto que se ordena se abastece de forma inmediata, que la demanda que no se satisface en cada periodo se pierde y que el nivel de inventario inicial es \(x_0=x \in \mathbf{X}\).

De manera que considerando un Modelo de Control de Markov \[( \mathbf{X}, \mathbf{A}, \{A(x): x \in \mathbf{X}\}, \mathbf{P},\mathbf{C})\] donde, el espacio de estados y controles son: \[\mathbf{X}=\mathbf{A}=\{0,1,2, \dotso M\}\] El conjunto de controles admisibles cuando el nivel de inventario es \(x\in\mathbf{X}\),es \[A(x)=\{0,1,2, \dotso,M-x\}\]