Preguntas etiquetadas con parsing

92
¿Cómo analizo una página HTML con Node.js?

Necesito analizar (del lado del servidor) grandes cantidades de páginas HTML. Todos estamos de acuerdo en que regexp no es el camino a seguir aquí. Me parece que javascript es la forma nativa de analizar una página HTML, pero esa suposición se basa en que el código del lado del servidor tiene...

90
¿Qué hace que Java sea más fácil de analizar que C?

Estoy familiarizado con el hecho de que las gramáticas de C y C ++ son sensibles al contexto y , en particular, necesita un "truco lexer" en C. Por otro lado, tengo la impresión de que puede analizar Java con solo 2 señales de anticipación, a pesar de la considerable similitud entre los dos...

86
Python: ¿Cómo determinar el idioma?

Quiero conseguir esto: Input text: "ру́сский язы́к" Output text: "Russian" Input text: "中文" Output text: "Chinese" Input text: "にほんご" Output text: "Japanese" Input text: "العَرَبِيَّة" Output text: "Arabic" ¿Cómo puedo hacerlo en Python? Gracias....

84
¿Cómo analizar de manera eficiente archivos de ancho fijo?

Estoy tratando de encontrar una forma eficiente de analizar archivos que contengan líneas de ancho fijo. Por ejemplo, los primeros 20 caracteres representan una columna, a partir de las 21:30 otra y así sucesivamente. Suponiendo que la línea tiene 100 caracteres, ¿cuál sería una forma eficaz de...