Fuentes de lista de palabras

11

Estoy buscando una fuente de sustantivos, adverbios, adjetivos y verbos en varios idiomas.

Me gustaría que las listas ya estén divididas, y no tener que pasar por el OED (y equivalentes que no están en inglés) volviendo a crear dichas listas a mano.

Realmente no me importan las definiciones, y entiendo que algunas palabras pueden ser múltiples partes del discurso, eso está bien, palabras como "muchos" podrían ser un sustantivo o un adjetivo, y pueden aparecer en ambas listas.

¿Alguien aquí sabe de tal fuente? Si no, ¿alguien podría señalarme en la dirección correcta?

Estoy de acuerdo con que el formato sea cualquiera de los siguientes (o similar si la gente tiene ideas):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • archivos de texto sin formato como "sustantivos", "verbos", etc.
  • una tabla mysql
  • etc.
madriguera
fuente

Respuestas:

8

He usado WordNet de la Universidad de Princeton para algunos proyectos. Esta es una base de datos léxica en inglés. Global WordNet es una extensión del proyecto que intenta hacer lo mismo para todos los idiomas.

También puede estar interesado en proyectos relacionados en http://wordnet.princeton.edu/wordnet/related-projects/

teknikqa
fuente
1
WordNet es el camino a seguir. Todos los mejores investigadores usan esto.
Ritwik Bose
4

Esto puede no ayudar en absoluto, no lo sé. Pero MediaWiki tiene una API para enumerar todas las páginas que pertenecen a una determinada categoría. Puedes intentar usarlo en Wiktionary.org.

Notas:

  • Cada consulta solo devuelve 500 resultados. Sin embargo, al final, también especifica un parámetro para usar en otra consulta para obtener los siguientes 500 resultados.
  • Incluye todo en la categoría especificada, incluso otras subcategorías.
  • Los resultados parecen estar en orden alfabético, aunque todo lo que comienza con una letra mayúscula va antes que nada en minúscula.

Ejemplos:

Espero que esto ayude, es lo que se me ocurrió.

Matt Blaine
fuente
1

Respaldaré la sugerencia de wordnet de @ teknikqa, pero sugeriría que revises sus API;

HISTORIA : Tenía un curso de IA que tenía una parte de análisis de lenguaje; Utilicé las API de perl de wordnet para buscar automáticamente los tres tipos de definición principales y clasificar la redacción a partir de eso casi en tiempo real FIN DEL TIEMPO DE HISTORIA

Hay API disponibles para muchos idiomas

FYI: El proyecto obtuvo una A +

Andrew Bolster
fuente