Estoy creando un analizador para la .one
extensión de archivo, que cuando termine lo agregaré al proyecto Apache Tika.
Aquí está el proyecto de código abierto con licencia APL 2.0 que estoy creando: https://github.com/nddipiazza/onenote-parser-java
Usé el documento de especificación aquí: https://docs.microsoft.com/en-us/openspecs/office_file_formats/ms-one/73d22548-a613-4350-8c23-07d15576be50
Como punto de partida, porté el código de este proyecto C ++ de código abierto: https://github.com/dropbox/onenote-parser
He recorrido un largo camino en el análisis de los documentos, pero me he topado con un obstáculo.
Aquí está el archivo OneNote que estoy usando para analizar: https://drive.google.com/file/d/1uROTEnKeBKU08CG_K5zdDTGHa178LgBK/view?usp=sharing
No puedo ver Section1TextArea1 y Section1TextArea2 en mis resultados analizados. Así que me falta algún tipo de elemento de análisis de datos clave o algo así.
Definitivamente está en el archivo OneNote. Puedo verlo en el visor Hex:
Aquí está la salida de análisis JSON: https://gist.github.com/nddipiazza/02d2252d357b3b02a6b9ab1050474267
Siento que al documento de especificaciones le falta información muy importante necesaria para analizar este formato propietario.
¿Qué elementos principales me estoy perdiendo, lo que hace que no obtenga el contenido de texto real?
fuente