Extraire toutes les URL en utilisant une belle soupe et Python3

Extraire toutes les URL en utilisant une belle soupe et Python3

Le lien suivant extrait toutes les URL pour une page Web donnée.

#!/ usr / bin / env python3 # version python: 3.4.2 # BS4 Version: 4.3.2-2 de Urllib.Demandez une URLOpen d'importation à partir de BS4 Import BeautifulSoup HTML = Urlopen ("http: // gnu.org ") # insérer votre URL pour extraire BSOBJ = BeautifulSoup (HTML.lire()); pour lien dans bsobj.find_all ('a'): imprimer(lien.get ('href'))

Enregistrez le script ci-dessus dans un fichier par exemple. extraire-url.py et le rendre exécutable:

$ chmod + x extrait-url.py 

Exécutez le script:

$ ./ extraire-url.py 

Tutoriels Linux connexes:

  • Comment créer une application Tkinter à l'aide d'un objet orienté…
  • Comment travailler avec l'API WooCommerce REST avec Python
  • Comment configurer un serveur OpenVPN sur Ubuntu 20.04
  • Télécharger le fichier depuis URL sur Linux en utilisant la ligne de commande
  • Une introduction à l'automatisation Linux, des outils et des techniques
  • Choses à installer sur Ubuntu 20.04
  • Comment définir des programmes par défaut en utilisant des alternatifs de mise à jour sur…
  • Comment lire et créer des fichiers CSV à l'aide de Python
  • Comment gratter les pages Web à partir de la ligne de commande à l'aide de HTMLQ
  • Comment écrire des extensions de nautilus avec nautilus-python