He instalado python-nltk en Ubuntu Server 12.04 usando apt-get.
Pero cuando intento descargar un corpus, aparece el siguiente error:
$ python
Python 2.7.3 (default, Feb 27 2014, 19:58:35)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download('brown')
[nltk_data] Error loading brown: HTTP Error 401: Authorization
[nltk_data] Required
False
¿Me falta alguna configuración o paquete adicional?
wget https://github.com/nltk/nltk/archive/develop.zip; unzip develop.zip; cd nltk-develop; python setup.py install
. Pero se ha planteado un problema en github.com/nltk/nltk/issues/747Respuestas:
El
DEFAULT_URL
utilizado endownloader.py
la versión empaquetada de Ubuntu todavía usa:Pero el servidor de datos actual es:
Por supuesto, puede instalar desde la fuente o ... modificar su versión ya instalada para que apunte al nuevo servidor de esta manera:
Luego puede instalar el corpus "marrón":
fuente
Es posible arreglar esto sin cambiar el código fuente. Cree un descargador personalizado en python:
luego abres un cuadro de diálogo GUI:
Compruebe que tiene acceso de escritura al directorio de descarga y descargue lo que necesita.
fuente
Éste actualiza el nltk y luego
nltk.download()
funciona nuevamente.fuente