Generador de lista de cadenas de textos más frecuentes.
Hola, necesito un programa que haga lo siguiente:
1º Cargar un simple documento de texto (.txt) el cuál contendrá demasiada información (cadenas de caracteres y/o caracteres únicos.)
2º Realizar una comprobación exhaustiva de todos los caracteres y/o cadena de caracteres.
3º Generar un simple documento de texto (.txt) que contenga una lista de las Frases más repetidas, es decir que se logre una tabla de "Cadenas de Texto" más frecuentes en TODO el documento.
Ejemplo:
1º Cargo mi Documento con textos
- Contenido del txt
1(Se dice que el día de hoy lloverá sin dudar, sin embargo cuento con el poder de la magia que llevo conmigo para sacar un paraguas de mi manga.)
2(Se dice que el día de mañana ya habrá llovido, sin embargo no estoy tan emocionado por el día de mañana, ya que las gotas de mis ojos habrán lavado toda mi magia.)
3_(De todos modos trato de que no me importe, un poco de mar salado no le viene mal a nadie, no? excepto a mí, que todo lo que imagino, se encuentra dando vueltas en un mar de pensamientos.)
Documento Generado (Cadenas de textos más frecuentes de mayor a menor)
-Se dice que el día de hoy
-, sin embargo
-mañana
-magia
Para tener una ídea más exacta, busco que se genere un diccionario en formato de texto al estilo del sistema de compresión Huffman "Tabla de frecuencias de cadenas de textos más repetidas"
Gracias.
Comentarios