La notion de chaîne a été introduite en 1902 par Andrei Markov dans le but de formaliser des problèmes d'épistémologie et de cryptage.
L'espace d'états est alors fini et, durant une longue période, beaucoup d'utilisateurs se sont contentés de manipulations matricielles qui trouvent rapidement leurs limites, même avec les moyens informatiques actuels. Ce n'est que vers les années 1940-1950 qu'est apparu un formalisme beaucoup mieux adapté, proposant des modes opératoires effectifs qui s'inspirent de la théorie générale des processus stochastiques et de la théorie du potentiel. La présentation qui en est faite ici est volontairement élémentaire et ne nécessite que des connaissances de base en probabilités. En effet, l'on se restreint ici à un espace d'états dénombrable et l'on ne fait pas usage de concepts plus élaborés comme les filtrations ou la théorie des martingales. La notion de dépendance markovienne est très intuitive ; par contre, les techniques de calcul demandent plus de dextérité et d'entraînement. C'est pourquoi un grand nombre de preuves et d'exemples sont fournis, pour permettre au lecteur de s'exercer à la manipulation d'outils nouveaux. Quelques preuves sont aussi rédigées pour pallier la lourdeur de certaines présentations, principalement en ce qui concerne celles décrites dans le paragraphe . En ce qui concerne les applications, qui sont extrêmement nombreuses, le choix s'est porté sur quelques exemples qui débouchent sur des procédures algorithmiques génériques, relativement récentes et d'un usage très répandu : algorithmes de recherche de mesures invariantes (Propp-Wilson, Metropolis), de la programmation dynamique (Bellman) et des chaînes de Markov cachées (E.M.).