9.12.07

Python: Leer los titulares de un rss de noticias

Pongamos por caso que necesitamos extraer los titulares de un xml (rss) de un periódico. Lo más fácil será crear un parseador xml con sax o minidom que extraiga los datos contenidos entre los tags "title". En mi caso, esta función simple que hace uso de minidom, me ha aliviado el proceso más de una vez:

def buscaXMLTag(xmlFile,xmlTag):
   resultList = []
   try:
      dom = minidom.parse(xmlFile)
      elements = dom.getElementsByTagName(xmlTag)
      if len(elements) != 0:
      for i in range(0,len(elements)):
         resultList.extend([elements[i].childNodes[0].nodeValue])
      else:
         # O ficheiro non ten tags sobre os que buscamos
         pass
   except:
      # O ficheiro non existe ou non se pode abrir
      pass

   return resultList

No hay comentarios: