Ahora tengo curiosidad: ¿qué tiene de misterioso esto? Realmente nunca he usado NLTK, y encontrar esa respuesta me llevó cinco minutos buscando en Google ... ¿Está realmente tan oculto?
phipsgabler
55
Creo que no es la cuestión de cuán oculto, esto también se me ocurrió solo tratando de etiquetar una sola oración, porque estoy buscando la razón por la cual nltk etiqueta mis verbos como sustantivos y no sabía cómo diferentes conjuntos de etiquetas puede ser usado. Esto también fue útil para esto, ¡gracias!
Phonebox
2
@phipsgabler si otros son como yo, tenía expectativas equivocadas. Esperaba una tabla / lista / mapa de búsqueda, mapeando los acrónimos de pos RBcon su significado adverb. ( Aquí hay un ejemplo ; o vea la respuesta de @ Suzana, que vincula el conjunto de etiquetas Penn Treebank ). Pero tienes razón, la construcción nltk.help.upenn_tagset('RB')es útil, y mencionó al principio del nltklibro ,
The Red Pea
137
Para ahorrarle tiempo a algunas personas, aquí hay una lista que extraje de un pequeño corpus. No sé si está completo, pero debería tener la mayoría (si no todas) de las definiciones de ayuda de upenn_tagset ...
CC : conjunción, coordinación
&'n and both but either et for less minus neither nor or plus so
therefore times v. versus vs. whether yet
CD : numeral, cardenal
mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s.025
fifteen 271,124 dozen quintillion DM2,000...
DT : determinante
all an another any both del each either every half la many much nary
neither no some such that the them these this those
EX : existencial allí
there
IN : preposición o conjunción, subordinando
astride among uppon whether out inside pro despite on by throughout
below within for towards near behind atop around if like until below
next into if beside ...
JJ : adjetivo o numeral, ordinal
third ill-mannered pre-war regrettable oiled calamitous first separable
ectoplasmic battery-powered participatory fourth still-to-be-named
multilingual multi-disciplinary ...
further gloomier grander graver greater grimmer harder harsher
healthier heavier higher however larger later leaner lengthier less-
perfectly lesser lonelier longer louder lower more ...
RBS : adverbio, superlativo
best biggest bluntest earliest farthest first furthest hardest
heartiest highest largest least less most nearest second tightest worst
RP : partícula
aboard about across along apart around aside at away back before behind
by crop down ever fast for forth from go high i.e.in into just later
low more off on open out over per pie raising start teeth that through
under unto up up-pp upon whole with you
¡Gracias! Esta debería haber sido la respuesta elegida, ya que es mucho más integral que simplemente responder, esencialmente, escriba algo en su consola para averiguarlo.
slartibartfast
63
El conjunto de etiquetas depende del corpus que se utilizó para entrenar al etiquetador. El etiquetador predeterminado de nltk.pos_tag()utiliza el conjunto de etiquetas Penn Treebank .
En NLTK 2, puede verificar qué etiquetador es el etiquetador predeterminado de la siguiente manera:
Eso significa que es un etiquetador de máxima entropía entrenado en el corpus de Treebank.
nltk.tag._POS_TAGGERya no existe en NLTK 3, pero la documentación indica que el etiquetador comercial todavía utiliza el conjunto de etiquetas Penn Treebank.
Gracias, esta es una respuesta mucho más útil que la aceptada.
Dale
3
Esta es una respuesta incompleta. En primer lugar, nltk.tag._POS_TAGGERno se ejecuta y no se proporcionan instrucciones específicas sobre qué importar. Además, descubrir la etiqueta utilizada es la mitad de la respuesta, la pregunta es pedir una lista de todas las etiquetas posibles dentro del etiquetador
Hamman Samuel
3
Es el corpus y no el etiquetador el que determina el conjunto de etiquetas. Tan pronto como sepa el nombre del corpus, el conjunto completo de etiquetas está a solo una búsqueda de Google.
Suzana
34
Lo siguiente puede ser útil para acceder a un archivo dictado con abreviaturas:
Puede descargar la lista aquí: ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz . Incluye partes confusas del discurso, mayúsculas y otras convenciones. Además, wikipedia tiene una sección interesante similar a esta. Sección: Etiquetas de parte del discurso utilizadas.
Acepto esto como una contribución de conveniencia. Pensé en mejorar el formato, pero eso podría ir en contra del propósito de esta publicación. Considere la posibilidad de editar y usar el formato de código en combinación con las nuevas líneas para obtener un formato agradable y facilidad de copiar y pegar. stackoverflow.com/editing-help
Yunnosch
Pensé en hacer esto, pero creo que lo haría menos conveniente.
RB
con su significadoadverb
. ( Aquí hay un ejemplo ; o vea la respuesta de @ Suzana, que vincula el conjunto de etiquetas Penn Treebank ). Pero tienes razón, la construcciónnltk.help.upenn_tagset('RB')
es útil, y mencionó al principio delnltk
libro ,Para ahorrarle tiempo a algunas personas, aquí hay una lista que extraje de un pequeño corpus. No sé si está completo, pero debería tener la mayoría (si no todas) de las definiciones de ayuda de upenn_tagset ...
CC : conjunción, coordinación
CD : numeral, cardenal
DT : determinante
EX : existencial allí
IN : preposición o conjunción, subordinando
JJ : adjetivo o numeral, ordinal
JJR : adjetivo, comparativo
JJS : adjetivo, superlativo
LS : marcador de elemento de lista
MD : auxiliar modal
NN : sustantivo, común, singular o masivo
NNP : sustantivo, propio, singular
NNS : sustantivo, común, plural
PDT : pre-determinante
POS : marcador genitivo
PRP : pronombre, personal
PRP $: pronombre posesivo
RB : adverbio
RBR : adverbio, comparativo
RBS : adverbio, superlativo
RP : partícula
TO : "to" como preposición o marcador infinitivo
UH : interjección
VB : verbo, forma base
VBD : verbo, tiempo pasado
VBG : verbo, participio presente o gerundio
VBN : verbo, participio pasado
VBP : verbo, tiempo presente, no tercera persona del singular
VBZ : verbo, tiempo presente, tercera persona del singular
WDT : determinante WH
WP : pronombre WH
WRB : Wh-adverbio
fuente
$
,''
,(
,)
,,
,--
,.
,:
,FW
,NNPS
,SYM
,WP$
, [dos] acentos abiertos. Vernltk.help.upenn_tagset()
.El conjunto de etiquetas depende del corpus que se utilizó para entrenar al etiquetador. El etiquetador predeterminado de
nltk.pos_tag()
utiliza el conjunto de etiquetas Penn Treebank .En NLTK 2, puede verificar qué etiquetador es el etiquetador predeterminado de la siguiente manera:
Eso significa que es un etiquetador de máxima entropía entrenado en el corpus de Treebank.
nltk.tag._POS_TAGGER
ya no existe en NLTK 3, pero la documentación indica que el etiquetador comercial todavía utiliza el conjunto de etiquetas Penn Treebank.fuente
nltk.tag._POS_TAGGER
no se ejecuta y no se proporcionan instrucciones específicas sobre qué importar. Además, descubrir la etiqueta utilizada es la mitad de la respuesta, la pregunta es pedir una lista de todas las etiquetas posibles dentro del etiquetadorLo siguiente puede ser útil para acceder a un archivo dictado con abreviaturas:
fuente
La referencia está disponible en el sitio oficial.
Copiar y pegar desde allí:
fuente
Puede descargar la lista aquí: ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz . Incluye partes confusas del discurso, mayúsculas y otras convenciones. Además, wikipedia tiene una sección interesante similar a esta. Sección: Etiquetas de parte del discurso utilizadas.
fuente
Basado en el método de Doug Shore pero que sea más fácil de copiar y pegar
fuente
Simplemente ejecute esto al pie de la letra.
nltk.tag._POS_TAGGER
no funciona Dará AttributeError: el módulo 'nltk.tag' no tiene el atributo '_POS_TAGGER' . Ya no está disponible en NLTK 3.fuente