Backtesting explicado
El backtesting es la simulación de una estrategia sobre datos históricos. El objetivo es decidir si la estrategia tiene suficiente ventaja para valer la pena ejecutarla en vivo. El resultado del backtest es una curva de PnL, un perfil de caída y estadísticas de operaciones — a partir de los cuales el operador elige desplegar, reajustar o descartar.
El problema con los backtests no es que mientan. Es que cuentan un tipo muy específico de verdad — "cómo habría funcionado la estrategia en esta historia con estas suposiciones" — y los operadores consistentemente malinterpretan esa verdad como una previsión.
Lo que informa un backtest honesto
| Métrica | Qué le dice | Qué no le dice |
|---|---|---|
| Retorno total | PnL acumulado durante la muestra | Cuán volátil fue el camino |
| Ratio de Sharpe | Retorno por unidad de volatilidad | Riesgo de cola; volatilidad bajista vs alcista |
| Máxima caída | Peor pico a valle en la muestra | Caída posible fuera de la muestra |
| Tasa de victorias | Porcentaje de operaciones rentables | Distribución del tamaño de ganancias y pérdidas |
| Factor de beneficio | Suma(ganancias) / Suma(pérdidas) | La estabilidad de esta ratio a lo largo del tiempo |
| Tiempo de exposición | Porcentaje del tiempo con capital en trabajo | Costo de oportunidad del capital inactivo |
| Número de operaciones | Tamaño de muestra de los resultados | Si todas las ejecuciones fueron realistas |
| Contabilidad de slippage + comisiones | Rentabilidad después de costos | Profundidad real del libro al tamaño de la orden |
Si un backtest no informa todo esto, es un anuncio, no un backtest.
Los cuatro sesgos que destruyen los backtests minoristas
1. Sesgo de look-ahead
La estrategia utiliza datos que no estaban disponibles en el momento de la decisión. El caso clásico es calcular un indicador en el cierre de la barra actual y luego operar dentro de esa misma barra. También es común: reequilibrar contra un universo elegido con conocimiento de qué tokens sobrevivieron hasta hoy (de ahí el "sesgo de supervivencia").
Corrección: las decisiones en el tiempo t deben usar solo datos disponibles en t. Haga cumplir esto desplazando todas las señales al menos una barra y operando en el open de la siguiente barra, no en el cierre de la barra actual.
2. Sesgo de supervivencia
El universo que está probando es el universo que existe hoy. Cada token dado de baja, cada exchange muerto, cada protocolo fallido está ausente. Una estrategia de reversión a la media que "funciona" en el universo de hoy habría sido diezmada por el universo que existía hace cinco años, porque los perdedores han desaparecido.
Corrección: pruebe contra un universo en un momento específico del tiempo — el conjunto de activos que eran negociables en cada fecha — lo que es costoso de ensamblar para cripto y casi imposible para tokens de cola larga. La siguiente mejor corrección es limitar el alcance del backtest a los N activos principales por liquidez, reconocer el sesgo y dimensionar en consecuencia.
3. Sesgo del período de muestra
La ventana del backtest es un único corte de la historia del mercado, y el corte que elija impulsa el resultado más que la estrategia. Una cuadrícula en BTC/USDT del 2023-01 al 2024-01 parece perfecta (rango lateral). La misma cuadrícula del 2024-02 al 2025-04 parece terrible (tendencia). Ninguna ventana es incorrecta; ambas están incompletas.
Corrección: informe resultados a través de múltiples ventanas fuera de muestra, incluyendo un ciclo completo alcista-bajista-alcista. Informe la distribución, no el número único.
4. Modelado insuficiente del slippage
El backtest ejecuta al precio medio histórico. Los mercados en vivo ejecutan contra el spread, y a veces fuera de él cuando el libro es delgado o el movimiento es rápido. Para bots de cuadrícula que realizan cientos de operaciones al día, un error de slippage de 5 puntos básicos se acumula hasta un capital final muy diferente.
Corrección: modele ejecuciones realistas:
- Las órdenes de taker al peor precio visible del tamaño solicitado en ese timestamp.
- Las órdenes de maker solo se ejecutan si el precio opera a través del nivel publicado, no solo lo toca.
- Durante las barras de alta volatilidad, amplíe el modelo de spread; durante las horas de baja liquidez, limite el tamaño de la orden a una fracción realista del volumen de la barra.
Ningún motor de backtest público clava todo esto. El enfoque pragmático es ejecutar el backtest, luego descontar el resultado — 20–40% menor retorno esperado, 30–50% mayor caída — para obtener algo más cercano a lo que la estrategia en vivo realmente hará.
Validación walk-forward
El reemplazo honesto de "entrenar en toda la historia, afirmar que funciona" es la validación walk-forward:
- Elija una ventana dentro de muestra (por ejemplo, 2021-01 a 2022-01) y ajuste la estrategia sobre ella.
- Elija una ventana fuera de muestra (2022-01 a 2022-04) y ejecute la estrategia ajustada contra ella sin más ajustes.
- Deslice la ventana hacia adelante (2021-04 a 2022-04 dentro de muestra, 2022-04 a 2022-07 fuera de muestra) y repita.
- Concatene todos los PnL fuera de muestra. Esa concatenación es lo que la estrategia puede esperarse que produzca.
La validación walk-forward rutinariamente reduce los retornos reportados en un 30–60% frente a un ajuste de ventana única. Los operadores que no ejecutan walk-forward obtienen un número sobreajustado.
Trampas específicas de las criptomonedas
- Migración de exchange. Un backtest de BTC/USDT en el Exchange A desde 2019 puede unir datos de un exchange que ya no existe. La liquidez y los spreads no son transferibles.
- Desvinculación de stablecoin. Una estrategia que usa USDT como moneda de cotización asume USDT = $1 en cada barra. Esto ha sido incorrecto durante ventanas extendidas (mayo 2022, marzo 2023) y el backtest generalmente no lo corrige.
- Dilución de token / airdrop. Los cambios en el suministro de tokens cambian silenciosamente el "precio" durante ventanas largas.
- Cambios en el calendario de comisiones. Los exchanges cambian las comisiones de maker/taker trimestralmente. Un backtest de 2020 usando comisiones de 2026 es optimista.
- Bases de tasas de financiación de futuros. Las tasas de financiación han tendido a la baja desde 2021 a medida que maduró la liquidez; un backtest de arbitraje de financiación de 2018 no es una previsión para 2026.
Notas específicas por estrategia
- Estrategia de trading en cuadrícula — los backtests de cuadrícula sobre un solo rango siempre parecen perfectos. Vuelva a hacer el backtest de la misma cuadrícula durante el mercado bajista de 2022 y el breakout de Q1 2024; los números son muy diferentes.
- Estrategia de bot DCA — los backtests de DCA son los más honestos pero dependen del camino según la fecha de inicio. El backtest de múltiples fechas de inicio es la solución.
- Bots de arbitraje — los backtests ignoran el riesgo de contraparte y la latencia de transferencia, que son las dos mayores fuentes de pérdida en vivo.
- Bots de trading por señales — el backtest del proveedor de señales casi siempre sufre de sesgo de supervivencia; vuelva a ejecutarlo contra la propia política de ejecución del operador.
La disciplina más amplia está cubierta en Gestión de riesgo en el trading automático: ninguna cantidad de precisión del backtest elimina la necesidad de límites en la cuenta en vivo, porque la única variable que el backtest no puede simular es el operador.
Lectura adicional en esta base de conocimientos
- ¿Qué es el trading automático de criptomonedas? — la categoría más amplia.
- Gestión de riesgo en el trading automático — los límites que acotan el lado negativo de cualquier estrategia independientemente de lo que dijera el backtest.