Recordemos que la forma funcional de regresión logística es
F( x ) = 11 + e- ( β0 0+ β1X1+ ⋯ + βkXk)
Esto es lo que devuelve predict_proba.
El término dentro del exponencial
d(x)=β0+β1x1+⋯+βkxk
es lo que devuelve decision_function. El "hiperplano" al que se hace referencia en la documentación es
β0+β1x1+⋯+βkxk=0
Esta terminología es un remanente de máquinas de vectores de soporte, que literalmente estiman un hiperplano de separación. Para la regresión logística, este hiperplano es una especie de construcción artificial, es el plano de igual probabilidad, donde el modelo ha determinado que ambas clases objetivo son igualmente probables.
La predictfunción devuelve una decisión de clase usando la regla
f(x)>0.5
A riesgo de ponerle jabón, la predictfunción tiene muy pocos usos legítimos, y veo su uso como un signo de error al revisar el trabajo de otros. Me iría lo suficientemente lejos como para llamarlo un error de diseño en sklearn (la predict_probafunción debería haberse llamado predict, y predictdebería haberse llamado predict_class, si acaso).