¿Cuáles son todas las posibles etiquetas pos de NLTK?

141

¿Cómo encuentro una lista con todas las posibles etiquetas de posición utilizadas por Natural Language Toolkit (nltk)?

OrangeTux
fuente

Respuestas:

151

El libro tiene una nota sobre cómo encontrar ayuda sobre conjuntos de etiquetas, por ejemplo:

nltk.help.upenn_tagset()

Otros son probablemente similares. (Nota: tal vez primero tenga que descargar tagsetsde la sección Modelos de ayuda de descarga para esto)

phipsgabler
fuente
3
Ahora tengo curiosidad: ¿qué tiene de misterioso esto? Realmente nunca he usado NLTK, y encontrar esa respuesta me llevó cinco minutos buscando en Google ... ¿Está realmente tan oculto?
phipsgabler
55
Creo que no es la cuestión de cuán oculto, esto también se me ocurrió solo tratando de etiquetar una sola oración, porque estoy buscando la razón por la cual nltk etiqueta mis verbos como sustantivos y no sabía cómo diferentes conjuntos de etiquetas puede ser usado. Esto también fue útil para esto, ¡gracias!
Phonebox
2
@phipsgabler si otros son como yo, tenía expectativas equivocadas. Esperaba una tabla / lista / mapa de búsqueda, mapeando los acrónimos de pos RBcon su significado adverb. ( Aquí hay un ejemplo ; o vea la respuesta de @ Suzana, que vincula el conjunto de etiquetas Penn Treebank ). Pero tienes razón, la construcción nltk.help.upenn_tagset('RB')es útil, y mencionó al principio del nltklibro ,
The Red Pea
137

Para ahorrarle tiempo a algunas personas, aquí hay una lista que extraje de un pequeño corpus. No sé si está completo, pero debería tener la mayoría (si no todas) de las definiciones de ayuda de upenn_tagset ...

CC : conjunción, coordinación

& 'n and both but either et for less minus neither nor or plus so
therefore times v. versus vs. whether yet

CD : numeral, cardenal

mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
fifteen 271,124 dozen quintillion DM2,000 ...

DT : determinante

all an another any both del each either every half la many much nary
neither no some such that the them these this those

EX : existencial allí

there

IN : preposición o conjunción, subordinando

astride among uppon whether out inside pro despite on by throughout
below within for towards near behind atop around if like until below
next into if beside ...

JJ : adjetivo o numeral, ordinal

third ill-mannered pre-war regrettable oiled calamitous first separable
ectoplasmic battery-powered participatory fourth still-to-be-named
multilingual multi-disciplinary ...

JJR : adjetivo, comparativo

bleaker braver breezier briefer brighter brisker broader bumper busier
calmer cheaper choosier cleaner clearer closer colder commoner costlier
cozier creamier crunchier cuter ...

JJS : adjetivo, superlativo

calmest cheapest choicest classiest cleanest clearest closest commonest
corniest costliest crassest creepiest crudest cutest darkest deadliest
dearest deepest densest dinkiest ...

LS : marcador de elemento de lista

A A. B B. C C. D E F First G H I J K One SP-44001 SP-44002 SP-44005
SP-44007 Second Third Three Two * a b c d first five four one six three
two

MD : auxiliar modal

can cannot could couldn't dare may might must need ought shall should
shouldn't will would

NN : sustantivo, común, singular o masivo

common-carrier cabbage knuckle-duster Casino afghan shed thermostat
investment slide humour falloff slick wind hyena override subhumanity
machinist ...

NNP : sustantivo, propio, singular

Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
Shannon A.K.C. Meltex Liverpool ...

NNS : sustantivo, común, plural

undergraduates scotches bric-a-brac products bodyguards facets coasts
divestitures storehouses designs clubs fragrances averages
subjectivists apprehensions muses factory-jobs ...

PDT : pre-determinante

all both half many quite such sure this

POS : marcador genitivo

' 's

PRP : pronombre, personal

hers herself him himself hisself it itself me myself one oneself ours
ourselves ownself self she thee theirs them themselves they thou thy us

PRP $: pronombre posesivo

her his mine my our ours their thy your

RB : adverbio

occasionally unabatingly maddeningly adventurously professedly
stirringly prominently technologically magisterially predominately
swiftly fiscally pitilessly ...

RBR : adverbio, comparativo

further gloomier grander graver greater grimmer harder harsher
healthier heavier higher however larger later leaner lengthier less-
perfectly lesser lonelier longer louder lower more ...

RBS : adverbio, superlativo

best biggest bluntest earliest farthest first furthest hardest
heartiest highest largest least less most nearest second tightest worst

RP : partícula

aboard about across along apart around aside at away back before behind
by crop down ever fast for forth from go high i.e. in into just later
low more off on open out over per pie raising start teeth that through
under unto up up-pp upon whole with you

TO : "to" como preposición o marcador infinitivo

to

UH : interjección

Goodbye Goody Gosh Wow Jeepers Jee-sus Hubba Hey Kee-reist Oops amen
huh howdy uh dammit whammo shucks heck anyways whodunnit honey golly
man baby diddle hush sonuvabitch ...

VB : verbo, forma base

ask assemble assess assign assume atone attention avoid bake balkanize
bank begin behold believe bend benefit bevel beware bless boil bomb
boost brace break bring broil brush build ...

VBD : verbo, tiempo pasado

dipped pleaded swiped regummed soaked tidied convened halted registered
cushioned exacted snubbed strode aimed adopted belied figgered
speculated wore appreciated contemplated ...

VBG : verbo, participio presente o gerundio

telegraphing stirring focusing angering judging stalling lactating
hankerin' alleging veering capping approaching traveling besieging
encrypting interrupting erasing wincing ...

VBN : verbo, participio pasado

multihulled dilapidated aerosolized chaired languished panelized used
experimented flourished imitated reunifed factored condensed sheared
unsettled primed dubbed desired ...

VBP : verbo, tiempo presente, no tercera persona del singular

predominate wrap resort sue twist spill cure lengthen brush terminate
appear tend stray glisten obtain comprise detest tease attract
emphasize mold postpone sever return wag ...

VBZ : verbo, tiempo presente, tercera persona del singular

bases reconstructs marks mixes displeases seals carps weaves snatches
slumps stretches authorizes smolders pictures emerges stockpiles
seduces fizzes uses bolsters slaps speaks pleads ...

WDT : determinante WH

that what whatever which whichever

WP : pronombre WH

that what whatever whatsoever which who whom whosoever

WRB : Wh-adverbio

how however whence whenever where whereby whereever wherein whereof why
binarymax
fuente
2
@PALEN lo que falta?
binarymax
2
Missing: $, '', (, ), ,, --, ., :, FW, NNPS, SYM, WP$, [dos] acentos abiertos. Ver nltk.help.upenn_tagset().
66
¡Gracias! Esta debería haber sido la respuesta elegida, ya que es mucho más integral que simplemente responder, esencialmente, escriba algo en su consola para averiguarlo.
slartibartfast
63

El conjunto de etiquetas depende del corpus que se utilizó para entrenar al etiquetador. El etiquetador predeterminado de nltk.pos_tag()utiliza el conjunto de etiquetas Penn Treebank .

En NLTK 2, puede verificar qué etiquetador es el etiquetador predeterminado de la siguiente manera:

import nltk
nltk.tag._POS_TAGGER
>>> 'taggers/maxent_treebank_pos_tagger/english.pickle'

Eso significa que es un etiquetador de máxima entropía entrenado en el corpus de Treebank.

nltk.tag._POS_TAGGERya no existe en NLTK 3, pero la documentación indica que el etiquetador comercial todavía utiliza el conjunto de etiquetas Penn Treebank.

Suzana
fuente
66
Gracias, esta es una respuesta mucho más útil que la aceptada.
Dale
3
Esta es una respuesta incompleta. En primer lugar, nltk.tag._POS_TAGGERno se ejecuta y no se proporcionan instrucciones específicas sobre qué importar. Además, descubrir la etiqueta utilizada es la mitad de la respuesta, la pregunta es pedir una lista de todas las etiquetas posibles dentro del etiquetador
Hamman Samuel
3
Es el corpus y no el etiquetador el que determina el conjunto de etiquetas. Tan pronto como sepa el nombre del corpus, el conjunto completo de etiquetas está a solo una búsqueda de Google.
Suzana
34

Lo siguiente puede ser útil para acceder a un archivo dictado con abreviaturas:

>>> from nltk.data import load
>>> tagdict = load('help/tagsets/upenn_tagset.pickle')
>>> tagdict['NN'][0]
'noun, common, singular or mass'
>>> tagdict.keys()
['PRP$', 'VBG', 'VBD', '``', 'VBN', ',', "''", 'VBP', 'WDT', ...
Doug Shore
fuente
2
Prefiero este enfoque que la solución aceptada, porque es más simple y enumera los valores posibles claramente
Hamman Samuel
1
¿Cómo estamos seguros de que este es el conjunto de etiquetas utilizado por el etiquetador empleado? Afaik nltk puede usar varios etiquetadores.
Nikana Reklawyks
De acuerdo con Hamman, de esta manera tiene la ventaja adicional de permitirle buscar los significados programáticamente
datavoredan
28

La referencia está disponible en el sitio oficial.

Copiar y pegar desde allí:

  • CC | Conjunción de coordinación |
  • CD | Número cardinal |
  • DT | Determinante |
  • EX | Existencial allí |
  • FW | Palabra extranjera |
  • IN | Preposición o conjunción subordinada |
  • JJ | Adjetivo |
  • JJR | Adjetivo, comparativo |
  • JJS | Adjetivo, superlativo |
  • LS | Marcador de elemento de lista |
  • MD | Modal |
  • NN | Sustantivo, singular o masivo |
  • NNS | Sustantivo, plural |
  • PNN | Nombre propio, singular |
  • NNPS | Nombre propio, plural |
  • PDT | Predeterminante |
  • POS | Final posesivo |
  • PRP | Pronombre personal |
  • PRP $ | Pronombre posesivo |
  • RB | Adverbio |
  • RBR | Adverbio comparativo |
  • RBS | Adverbio superlativo |
  • RP | Partícula |
  • SYM | Símbolo |
  • TO | a |
  • UH | Interjección |
  • VB | Verbo, forma base |
  • VBD | Verbo, tiempo pasado |
  • VBG | Verbo, gerundio o participio presente |
  • VBN | Verbo, participio pasado |
  • VBP | Verbo, no tercera persona singular presente |
  • VBZ | Verbo, tercera persona singular presente |
  • WDT | Determinante de Wh |
  • WP | Pronombre Wh |
  • WP $ | Pronombre wh posesivo |
  • WRB | Adverbio Wh |
mdubez
fuente
1
['LS', 'TO', 'VBN', "''", 'WP', 'UH', 'VBG', 'JJ', 'VBZ', '--', 'VBP', 'NN', 'DT', 'PRP', ':', 'WP$', 'NNPS', 'PRP$', 'WDT', '(', ')', '.', ',', '``', '$', 'RB', 'RBR', 'RBS', 'VBD', 'IN', 'FW', 'RP', 'JJR', 'JJS', 'PDT', 'MD', 'VB', 'WRB', 'NNP', 'EX', 'NNS', 'SYM', 'CC', 'CD', 'POS']

Basado en el método de Doug Shore pero que sea más fácil de copiar y pegar

little_thumb
fuente
Acepto esto como una contribución de conveniencia. Pensé en mejorar el formato, pero eso podría ir en contra del propósito de esta publicación. Considere la posibilidad de editar y usar el formato de código en combinación con las nuevas líneas para obtener un formato agradable y facilidad de copiar y pegar. stackoverflow.com/editing-help
Yunnosch
Pensé en hacer esto, pero creo que lo haría menos conveniente.
Fluffy Ribbit
0

Simplemente ejecute esto al pie de la letra.

import nltk
nltk.download('tagsets')
nltk.help.upenn_tagset()

nltk.tag._POS_TAGGERno funciona Dará AttributeError: el módulo 'nltk.tag' no tiene el atributo '_POS_TAGGER' . Ya no está disponible en NLTK 3.

Sumit Pokhrel
fuente