Web Analytics
Plik PDF
📖

Plik PDF

Plik PDF

Podłączanie się do pliku PDF

  1. Otwórz Tableau. Na stronie startowej w panelu Connect wybierz PDF file.
  2. image
  3. W oknie dialogowym, które się otworzy, przejdź do lokalizacji, w której zapisany jest plik PDF, z którym chcesz pracować. Wybierz go klikając dwukrotnie.
  4. Możesz skorzystać z pliku instruktażowego AMZN Stock👇, który dostarcza Tableau również na swojej stronie.

    AMZN Stock.pdf207.4KB
    image
  5. Następnie pojawi się okno dialogowe wyboru stron. Dostępne opcje to:
    1. All – cały dokument
    2. Single page – konkretna strona
    3. Range – zakres stron od-do.
    4. image
      💡

      Wskazówka! Tableau, podobnie jak inne czytniki PDF, liczy pierwszą stronę pliku jako stronę numer 1. Do prawidłowego zeskanowania tabel należy podać numer strony wyświetlany przez czytnik PDF, a nie numer strony użyty w samym dokumencie, który niekoniecznie będzie zaczynać się od strony numer 1. Np. chcąc użyć poniższej tabeli należy wybrać stronę 18 (a nie 14).

      image

      W naszym przykładzie wybierzemy zakres stron od 2 do 8.

      image

      Tabele, które są rozpoznawane przez Tableau otrzymują unikalną nazwę, np. Page 2 Table 1 złożoną z nazwy strony, z której pochodzi tabela oraz liczby porządkowej tabeli, którą Tableau odczytało na danej stronie. W przypadku, gdy Tableau zidentyfikuje więcej niż jedną tabelę na stronie, druga część nazwy może wskazywać na:

    5. inną unikalną tabelę bądź pod-tabelę na danej stronie,
    6. fakt, iż Tableau zinterpretowało tabelę w inny sposób. Sposobów interpretacji może być wiele w zależności od tego, jak tabele są zbudowane w pliku PDF.
    7. W omawianym przykładzie każda ze stron została stworzona w oddzielnej tabeli. Niemniej jednak, ponieważ każda z nich ma taką samą strukturę – nagłówki kolumn są takie same – możliwe będzie ich połączenie za pomocą Unii.

      image

      Z wciśniętym klawiszem CTRL zaznacz wszystkie tabele i przeciągnij je na kanwę, aby ręcznie stworzyć Unię.

      image

      Pierwszy z wierszy z nagłówka tabeli PDF jest mylący i Tableau nie odczytuje go poprawnie.

      image

      Wykorzystując Data Interpreter nazwy kolumn zostaną prawidłowo przypisane.

      image

      Dodatkowe informacje

      ➡️ W przypadku, gdy po zeskanowaniu stron przez Tableau, nie znajdujesz właściwych tabel w panelu z lewej strony, możesz powtórzyć odczyt. W tym celu kliknij strzałkę z prawej strony nazwy połączenia i wybierz Rescan PDF file.

      image

      Ponownie pojawi się okno dialogowe wyboru stron.

      image

      ➡️ Głównym celem konektora pliku PDF jest znalezienie i prawidłowe odczytanie danych w ujęciu tabelarycznym. Wszystkie pozostałe informacje, które nie są częścią tabeli, a raczej zawarte w tytułach, podpisach i przypisach są po prostu ignorowane. Dane takie można dodać ręcznie, np. do pliku tekstowego. W tym celu, możesz najpierw wyeksportować dane z pliku PDF do CSV, następnie ręcznie przeedytować dane tak, by tworzyły właściwą tabelę, a na końcu połączyć się z nowo utworzonym plikiem CSV.

      ➡️ W przypadku połączenia do pliku PDF, Tableau najefektywniej działa z tabelami standardowymi, które korzystają z prostego formatu tabelarycznego. Idealnym stanem jest, gdy tabela w pliku PDF posiada nagłówki w pierwszym wierszu, a wartości w kolejnych. Wszelkie dodatkowe formatowanie zastosowane w tabelach lub wokół nich, np. kolorystyka, cieniowanie, nagłówki hierarchiczne, nazwy nagłówków, które rozciągają się na wiele wierszy, nagłówki ustawione na skosie, może wpłynąć na odczyt przez Tableau i jego jakość.

      ➡️ Tableau nie obsługuje plików PDF, które zostały wygenerowane za pomocą oprogramowania do skanowania (tzw. OCR).

      ➡️ Tableau nie obsługuje plików PDF zastrzeżonych hasłem.

      ➡️ Tableau nie obsługuje plików PDF, które w nazwie zawierają znaki unicode.

      ➡️ Pamiętaj o dokładnym sprawdzeniu wyników odczytu i weryfikacji danych, aby dalsza analiza przebiegała bezproblemowo.

      ← Poprzednia strona