static.sake.giglobaljob.comstatic.sake.giglobaljob.com/files/2937cd14a7c347fd9b47ca... · web...

8
Estructura http://www.bdyellowbook.com/ En bdyellowbook.com encontramos el árbol de categorías padre a la izquierda. Tendremos que entrar en cada una de ellas. Al entrar en cada una de las categorías encontramos dos listas: una de subcategorías, arriba, y otra de empresas que se encuentran dentro de la categoría padre pero en ninguna subcategoría:

Upload: duonghanh

Post on 29-Sep-2018

225 views

Category:

Documents


0 download

TRANSCRIPT

Estructura http://www.bdyellowbook.com/En bdyellowbook.com encontramos el árbol de categorías padre a la izquierda. Tendremos que entrar en cada una de ellas.

Al entrar en cada una de las categorías encontramos dos listas: una de subcategorías, arriba, y otra de empresas que se encuentran dentro de la categoría padre pero en ninguna subcategoría:

SubcategoríasListado de empresas

Primero, entramos en la ficha de cada empresa pinchando en el nombre de cada una, por ejemplo ABC Radio:

Hay que tener en cuenta que el listado se divide en varias páginas, a las que accederemos mediante el linkque se encuentra abajo a la derecha,rodeado por el recuadro rojo (Next):

Dentro de la ficha, nos interesa obtener la mayor información posible. Lo que encontraremos y deberemos extraer será lo siguiente:

- Nombre de la empresa . En todas las ocasiones aparece en mayúsculas, por lo que habrá que cambiarla a mayúsculas y minúsculas.

- Imágenes . Nos interesan las imágenes y logos que pueda haber. Debemos extraer la url de las mismas.

- Dirección . La dirección la extraeremos limpia, ya que en muchas ocasiones nos vamos a encontrar alguna división de territorio dentro de ella.Por ejemplo:

Divisiones de territorio: Habrá que separar toda división de territorio que haya teniendo en cuenta el documento de clasificación geográfica. Por tanto, cada división se corresponderá con lo siguiente:

Región = District Provincia = Upazila/ Thana Población = Mauza/ Moholla Distrito = Village

Código postal: se extrae y se coloca en un campo aparte. Dirección: solamente quedará la calle, número, etc.

Dirección Divisiones de Código postal

- Ciudad. Se refiere al distrito, por lo tanto lo extraeremos y lo meteremos en el apartado de Región.

- Teléfono. El teléfono hay que limpiarlo, ya que en muchas ocasiones aparece con el prefijo del país o símbolos como “+” o guiones que no nos interesan. El prefijo de Bangladesh es el 880, por tanto si algún número empieza así, eliminamos los dígitos. Si aparecen varios teléfonos, los cogemos todos.

- Fax: el fax también lo limpiaremos, y si como en este caso, aparece el prefijo del país, lo eliminamos, así como los símbolos que encontremos.

- Email: nos interesa mucho conseguir cuantos más mails mejor. Si nos encontramos con varios emails, extraemos todos.

- Descripción: las descripciones no son predefinidas, por lo que las extraeremos:

- Web: En muchas ocasiones no aparece, pero las veces que lo haga la sacamos.