Analizador de texto básico con Python
de andrespf082002 @andrespf082002
- 12
- 0
- 0
Introducción
¡Hola!
Decidí crear un analizador de texto, el cual contará las palabras repetidas de un texto ingresado por el usuario y mostrará un top 5 de las mas repetidas.

Materiales
Utilicé la librería "string" que ya viene incluida con Python, la cual ayudará a ignorar los signos de puntuación al momento de contar el texto y Visual Studio Code para ejecutar el código.
¿Cómo funciona el código?
#1. Se le pedirá al usuario que ingrese el texto a analizar.
#2. Python se asegurará de que sea un texto valido, ya que lógicamente no se puede analizar un texto vacío.
#3. Se importará la librería "string" que ayudará a limpiar el análisis del texto de los signos de interrogación.
#4. Se separará el texto para analizar las palabras.
#5. Ahora, Python empezará a contar las palabras, añadiéndolas en una en un diccionario junto al número exacto de veces que se repite.
#6. Python mostrará un top de las 5 palabras más repetidas del texto.


Ejemplo
Se ingresará el siguiente texto: "Python es un lenguaje de programación de alto nivel, ampliamente utilizado por su facilidad de aprendizaje y su sintaxis legible y clara. A diferencia de otros lenguajes más complejos, Python permite a los programadores enfocarse en resolver problemas en lugar de perder tiempo en detalles de sintaxis. Este lenguaje tiene una comunidad activa y vibrante que contribuye con bibliotecas y módulos para prácticamente cualquier aplicación: desarrollo web, análisis de datos, inteligencia artificial, automatización de tareas, y mucho más. Por ejemplo, frameworks como Django y Flask facilitan la creación de aplicaciones web, mientras que bibliotecas como Pandas y NumPy son herramientas esenciales para el análisis de datos y la ciencia de datos. Además, Python se integra fácilmente con otros lenguajes y tecnologías, lo que lo convierte en una elección ideal para proyectos colaborativos. Gracias a su flexibilidad, Python es elegido tanto por principiantes como por expertos en desarrollo de software." Para probar el analizador.

Resultados
Top 5 palabras más repetidas:
de: 12 veces
y: 9 veces
en: 5 veces
Python: 4 veces
por: 4 veces
Posibles mejoras:
Un texto se compone por muchos artículos, pronombres y preposiciones, palabras que por lo general no superan los 3-4 caracteres. Una de las posibles mejoras para el programa es dar una condición de que solo tenga en cuenta las palabras de +4 caracteres, haciendo así que las palabras repetidas sean mas relevantes para la temática del texto (ya que puede ser un articulo científico el texto que se esté analizando). Esto es un código básico, por lo que puede tener muchísimas mejoras. Si alguien desea compartir alguna, ¡no dude en hacerlo, todas las ideas serán bienvenidas!

0 comentários
Faça login ou cadastre-se Gratuitamente para comentar