Básicamente quiero convertir las medidas de similitud en pesos que se usan como predictores. Las similitudes estarán en [0,1], y restringiré los pesos para que también estén en [0,1]. Me gustaría una función paramterica que haga este mapeo que probablemente optimizaré usando el descenso de gradiente. Los requisitos son que 0 se asigne a 0, 1 se asigne a 1 y aumente estrictamente. También se aprecia una derivada simple. Gracias por adelantado
Editar: Gracias por las respuestas hasta el momento, son muy útiles. Para aclarar mi propósito, la tarea es la predicción. Mis observaciones son vectores extremadamente dispersos con una sola dimensión para predecir. Mis dimensiones de entrada se utilizan para calcular la similitud. Mi predicción es entonces una suma ponderada del valor de otras observaciones para el predictor donde el peso es una función de similitud. Estoy limitando mis pesos en [0,1] por simplicidad. Es de esperar que ahora sea obvio por qué necesito 0 para mapear a 0, 1 para mapear a 1, y para que sea estrictamente creciente. Como whuber ha señalado, el uso de f (x) = x cumple con estos requisitos y en realidad funciona bastante bien. Sin embargo, no tiene parámetros para optimizar. Tengo muchas observaciones para poder tolerar muchos parámetros. Codificaré manualmente el descenso del gradiente, de ahí mi preferencia por una derivada simple.
Por ejemplo, muchas de las respuestas dadas son simétricas acerca de .5. Sería útil tener un parámetro para desplazarse hacia la izquierda / derecha (como con la distribución beta)
fuente
Respuestas:
Aquí hay uno:
donde es > 0β > 0
] 2
fuente
fuente
Permítame ofrecerle la solución más general consistente con los requisitos: eso le dará la mayor flexibilidad para elegir y optimizar.
Podemos interpretar "en forma de S" como una curva monotónicamente creciente (porque la transformación debe ser de uno a uno) que consiste en una parte cóncava hacia arriba y otra parte cóncava hacia abajo. Podemos centrarnos en hacer que la mitad izquierda sea cóncava hacia abajo, porque el otro tipo (con la mitad izquierda cóncava hacia arriba) se obtiene invirtiendo tales transformaciones.
Esta segunda derivada puede hacer prácticamente cualquier cosa : todo lo que necesitamos es que
es integrable
y
R
fuente
Para qué está tratando de usar esto no me resulta particularmente claro, así que no puedo decir si tiene sentido hacerlo, pero cumplir con todos sus criterios parece ser bastante trivial.
Entonces, ¿por qué no simplemente tomar cualquier familia específica conveniente de distribuciones continuas * unimodales en [0,1] cuyo pdf es "simple"? Eso parece cumplir con cada parte de lo que enumeras allí.
* (cuyo modo está limitado desde los puntos finales)
curva en forma de s: garantizada por unimodalidad (con modo no en puntos finales)
paramétrico: al proporcionar cualquier familia específica que tenga parámetros
0 asigna a 0, 1 asigna a 1 estrictamente en aumento: eso es lo que hacen las funciones de distribución en [0,1]; solo necesita que la densidad sea> 0 in (0,1)
derivada simple: ese es el pdf, por lo que si el pdf es "simple" según el criterio que le convenga, ya está.
Hay (como dijo Alex R) un número infinito de estos. La versión beta que menciona es obvia, pero el cdf es la función beta incompleta, por lo que necesitaría algo para evaluar eso: es una función estándar en muchos paquetes (incluidos casi todos los paquetes de estadísticas decentes), así que dudo que eso sea ser dificil. Sin embargo, tenga en cuenta que no todas las versiones beta son unimodales (con el modo no en los extremos), por lo que la familia también incluye archivos cdf que no tienen forma de "s".
Aquí hay fotos de tres familias razonablemente simples:
Hay muchas otras opciones y se pueden construir fácilmente otras nuevas.
-
En respuesta a la edición de la pregunta:
fuente