Preguntas etiquetadas con reinforcement-learning

30

¿Cuál es la función Q y cuál es la función V en el aprendizaje por refuerzo?

Me parece que la función puede expresarse fácilmente por la función y, por lo tanto, la función parece superflua. Sin embargo, soy nuevo en el aprendizaje por refuerzo, así que supongo que algo está mal.VVVQQQVVV Definiciones El aprendizaje Q y V está en el contexto de los procesos de decisión de...

machine-learning reinforcement-learning

29

¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

25

Diferencia entre la red de políticas de AlphaGo y la red de valores

Estaba leyendo un resumen de alto nivel sobre AlphaGo de Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), y encontré los términos "política red "y" red de valor ". En un nivel alto, entiendo que la red de políticas se usa para sugerir movimientos y...

machine-learning reinforcement-learning

23

¿Qué es exactamente bootstrapping en el aprendizaje por refuerzo?

Aparentemente, en el aprendizaje por refuerzo, el método de diferencia temporal (TD) es un método de arranque. Por otro lado, los métodos de Monte Carlo no son métodos de arranque. ¿Qué es exactamente bootstrapping en RL? ¿Qué es un método de arranque en

reinforcement-learning

19

¿Qué es la "reproducción de experiencia" y cuáles son sus beneficios?

He estado leyendo DeepMind Atari de Google de papel y yo estoy tratando de entender el concepto de "experiencia de repetición". La repetición de la experiencia aparece en muchos otros documentos de aprendizaje de refuerzo (en particular, el documento AlphaGo), por lo que quiero entender cómo...

reinforcement-learning q-learning

13

AlphaGo (y otros programas de juegos que utilizan aprendizaje por refuerzo) sin base de datos humana

No soy especialista en el tema, y mi pregunta es probablemente muy ingenua. Se deriva de un ensayo para comprender los poderes y la limitación del aprendizaje por refuerzo como se usa en el programa AlphaGo. El programa AlphaGo se ha creado utilizando, entre otras cosas (exploración de árboles...

reinforcement-learning

12

Aprendizaje supervisado vs aprendizaje de refuerzo para un auto rc simple y autónomo

Estoy construyendo un auto con control remoto para divertirme. Estoy usando una Raspberry Pi como computadora de a bordo; y estoy usando varios complementos, como una cámara Raspberry Pi y sensores de distancia, para obtener información sobre los alrededores del automóvil. Estoy usando OpenCV para...

reinforcement-learning supervised-learning

11

¿Hay algún buen modelo de lenguaje listo para usar para Python?

Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

10

implementando la diferencia temporal en el ajedrez

He estado desarrollando un programa de ajedrez que utiliza el algoritmo de poda alfa-beta y una función de evaluación que evalúa las posiciones utilizando las siguientes características, a saber, material, seguridad real, movilidad, estructura de peones y piezas atrapadas, etc. Mi función de...

machine-learning algorithms reinforcement-learning

10

Aprendizaje Cooperativo de Refuerzo

Ya tengo una implementación para un solo agente que trabaja en un problema de fijación de precios dinámico con el objetivo de maximizar los ingresos. Sin embargo, el problema con el que estoy trabajando implica varios productos diferentes que son reemplazos entre sí, por lo que el precio dinámico...

machine-learning reinforcement-learning

10

Reproducción priorizada, ¿qué hace realmente el muestreo de importancia?

No puedo entender el propósito de los pesos de muestreo de importancia (IS) en la reproducción priorizada (página 5) . Es más probable que se muestree una transición de la repetición de la experiencia cuanto mayor sea su "costo". Tengo entendido que 'IS' ayuda a abandonar sin problemas el uso de...

reinforcement-learning

9

Libros sobre aprendizaje por refuerzo

He estado tratando de entender el aprendizaje por refuerzo durante bastante tiempo, pero de alguna manera no puedo visualizar cómo escribir un programa para el aprendizaje por refuerzo para resolver un problema mundial de la red. ¿Me puede sugerir algunos libros de texto que me ayuden a construir...

machine-learning books reinforcement-learning

9

¿Se puede aplicar el aprendizaje por refuerzo para el pronóstico de series de tiempo?

time-series reinforcement-learning forecasting

8

¿Qué conocimiento necesito para escribir un programa simple de IA para jugar un juego?

Soy un graduado de B.Sc. Uno de mis cursos fue 'Introducción al aprendizaje automático', y siempre quise hacer un proyecto personal en este tema. Recientemente escuché sobre diferentes entrenamientos de IA para jugar juegos como Mario, Go, etc. ¿Qué conocimiento necesito adquirir para entrenar un...

machine-learning algorithms beginner reinforcement-learning training