Webes információk mentése #1 – web clipping

(from: addons.mozilla.org)

Én vagyok az az ember az irodában, akinél mindig van 100+ oldal megnyitva Firefox-ban, egyszerűen ezért, mert sok szálon dolgozom és általában nem tudom mindet lezárni, még ha az alapprobléma meg is oldódik. Nyilván ez nem jó és nem is hatékony (pl. megeszi a memóriát, de azért az újabb böngészők már egész jól kezelik ezt), de mivel lehet keresni az oldalak címében (pl. TabSearch plug-in, vagy a beépített % gyorskereső), így kezelhető a dolog. „Legrosszabb” időszakaimban simán 300 lap is volt megnyitva :).

Ennek oka részben az, hogy adott esetben sok idő is eltelik mire eljutok egy használható információforráshoz, sajnos jellemzően olyasmit keresek, ami másoknak sem triviális, így újra megtalálni sok idő lenne. Lehet könyvjelzőzni, ami többé-kevésbé elmegy, de egy jól működő szisztéma kialakítása idő és sajnos ez nem oldja meg azt a problémát, hogy bizony az információk eltűnnek. És ez az én legnagyobb gondom…

Szokás azt mondani, hogy ami egyszer az Internetre felkerül az ott is marad örökkön örökké, de ez inkább csak jól hangzik, mintsem igaz lenne :). Legalábbis a munkám során én számtalanszor találkoztam azzal, hogy adott URL-en már csak a parkolt domain, vagy vegyél meg oldalak jönnek be. A blog-okról meg nem is beszélve, azok elég hektikusan változnak/frissülnek. Persze van esély, hogy a tartalom valamelyik web archive-ból visszanyerhető, de kisebb oldalak esetén ez kevésbé működik. Viszont el kell ismerni, hogy a tudás megosztás/megszerzés egyre inkább on-line történik, a könyvek szerepe egyre kisebb, főleg a gyorsan változó tech világban. Plusz általában nem egy megoldás van egy problémára, sőt gyakran a leghasználtabb nem is a legjobb, csak simán az ismertebb. Innentől kezdve viszont kisebb nyomozómunka a nekünk megfelelő információ megtalálása és ha már eltöltöttünk velem n órát, akkor szerintem célszerű valahogy megőrizni is.
Gondolom sokunk munkájának egy fontos része a research és egészen meglepő, hogy nagyon kevés azt ezt támogató eszköz (na jó, a ChatGPT elég ígéretes, de szerintem még kell neki mondjuk egy év, hogy igazán jó is legyen és elvegye a munkánkat :). Itt most nem a Zotero-féle megközelítésre gondolok, sokkal inkább a valami szerkeszthető snapshot készítőre, ami kommentelhető, amolyan Google Docs-szerűen, de alapesetben nem a teljes oldal, sokkal inkább annak az értékes rész. A Memex projekt valami hasonló akar(t) lenni, de pont a clipping rész hiányzik belőle ahogy láttam.

Az oldaltartalmak mentésére sok mindennel próbálkoztam az évek során. A lényeg, hogy a forrása oldaltól függetlenül létezzen a mentett tartalom a továbbiakban:

  1. Sima böngészős teljes weblap mentés/PDF nyomtatás lokális/valami cloud tárhelyre: sok évvel ezelőtt ez volt ‘A’ megoldás, de nehezen kezelhető, nem lehet hatékonyan a tartalomban keresni. Mai szemmel nézve már kicsit old school.
  2. Weblap tükrözése: sokáig használtam HTTrack-et is, de ez sok esetben overkill, nekem nem kell az utolsó bitig az oldal, az esetek 99%-ában elegendő csak egy része és csak a számomra értékes szöveges tartalmuk.
  3. Wiki szerű „kijegyzetelés”, tartalom manuális mentése pl. egy lokál WordPress blog-ba: jónak jó, de nem fenntartható. Képtelen voltam tartósan szokássá tenni, hogy a kritikus információkat kinyerjem, főleg mert ezeket kontextusba is illene helyezni, ami egy oldal mentésénél jellemzően adott.
  4. Web clipping: na ez már egy jó megoldásnak bizonyult elvi szinten az információ megőrzésre. Ezek az eszközök általában szerkeszthető formában mentik az oldalakat (a print-screen jellegűeket el kell felejteni), így a tartalom kereshető is. Az Evernote megoldása e tekintetben messze kiemelkedőnek bizonyult és sajnos nem nagyon volt/van konkurenciája sokáig.

Éveken át én is az Evernote Web Clippert használtam, mert ingyenes, általában működött, kényelmes volt stb. De egy ideje már a free tier-ben maximalizálták a csatlakoztatható klienseket, ami egy nagyon rossz dolog: jelenleg a szinkronizált eszközök száma 2 lehet, ami persze kitrükközhető a web-es eléréssel, de ez csak egy látszatmegoldás sajnos. Igyekeznek ezt is korlátozni, mert amint látják, hogy mobil böngészőből lépünk be már ki is írja, hogy ez bizony nem támogatott, ami hülyeség, ez csak azért van mert próbálják bezárni ezt a kiskaput. Az Android-os Firefox-ban szerencsére működik számos plug-in, így van user agent switcher is (legrosszabb esetben ott a Firefox Nightly for Android, amihez a PC-s plug-in-ek is felmennek, bár nem mind működik). Ha itt beállítjuk, hogy a user agent Windows és FF legyen, akkor működni fog.
Ezek a változtatások persze egyéb kérdéseket is felvetnek: mi lesz ha tovább szigorítanak és még erősebben terelnek a fizetős vonalra? Az információ az ő cloud-jukban van, így elvileg bármikor megszűnhet a hozzáférésünk? A nagyon kényelmes használata miatt erről évekig igyekeztem megfeledkezni :). Félreértés ne essék, a fizetős csomagokkal nincs bajom, de mivel szinte csak a web clipping funkciót használom, így erősnek érzem azt a 7+ EUR/hó díjat, ráadásul úgy, hogy ez a funkció messze nem is tökéletesen megbízható. Tudom, meg kell nekik is élniük és web clipping tekintetében minimális a konkurencia, de akkor is túlzónak érzem ezt +2 kliens miatt…

A teljesen self-hosting megoldások egy komplexebb probléma, és sajnos nem nagyon látok gyorsan beüzemelhető megoldást e téren, bár rendre fel-fel vetődik valami web clipping tool igénye Nextcloud-hoz, de jelenleg, legjobb tudásom szerint nincs ilyen, működő funkciója. Most talán az archibebox.io projekt a legígéretesebb, de ez már egy nehézsúlyú versenyző, kell mellé infrastruktúra is, bár szerintem egy Raspberry Pi 4/5 kiszolgálná, a probléma inkább a mentések mérete és konfigurálhatósága (és az idő hiánya, ami a megfelelő összerakáshoz kellene :). Esetleg még itt érdemes nézelődni.
A hosszabb távon erre majd ki kell találnom valamit, de addig is kellett egy Evernote Web Clipper alternatíva.

Több lehetséges jelöltet is kipróbáltam, de minddel volt valami bajom, pl:

  • A Joplin egész jónak tűnt, de sajnos egy katasztrófa a szinkronizálás és a web clipper sem igazán kiforrott, az Android kliens meg, mondjuk úgy nem túl funkciódús…
  • A másik triviális lehetőség az MS Notes meg egyszerűen nem működött/összevissza mentett egyes esetekben. Furcsa lény ez a Microsoft, tök jó dolgokat találnak ki, de jellemzően sikerült elrontani a kivitelezést, apró logikátlanságokkal összedöntik az egészet…
  • A Notion, mint egy Evernote kihívó ígéretesnek tűnt, sőt sok tekintetben nekem jobban is tetszett mint az Evernote, de pont a web clipper itt sem a legerősebb: sok esetben hibázik, Android-on alkalmazásból megosztás sokszor nem működik. Látszólag bizonyos struktúrákat sem szeret, pl. Stack Overflow gyakorlatilag nem menthető vele, így sajnos egyet kell értenem más felhasználókkal:

Web clipper seems more miss than hit so far

(from: reddit.com)

A Roam Resource miatt pár éve nagyot ment a backlinking koncepció és funkció, így egyre-másra jöttek ki az ezt támogató alkalmazások, illetve a meglévőek is bővültek ezzel (pl. a Notion is kapott ilyet). Gondoltam hátha, most valaki megcsinálja a tutit, de sajnos nem: kísérletezgettem több ilyennel is, pl. az Amplenote-al, mert ehhez is van web clipper, de csak erős kompromisszumokkal működött, bár maga a szolgáltatás egyébként egész jó.

Már-már lemondtam a normális web clipper-ről, amikor szinte a semmiből előtermett a MaoXian Web Clipper browser plug-in, ami gyakorlatilag azt tudja, amit kerestem, sőt kis próbálgatás után még többet is. Végre van egy nagyjából vállalhatóan működő web clipper, ami maga képes egy index.html oldal előállítására és Webdav-on keresztül még részlegesen elérhetővé is lehet tenni a mentéseket más eszközökre (nálam: Koofr-be mentés, Webdav elérés CX File Explorer-ből és Duckduck Go böngésző Andorid OS-en). A szöveg mentése megkockáztatom jobb is mint az Evernote-nál, ritkábban hibázik, így ennyi szenvedés után végre van egy működő megoldásom.

Persze vannak hátrányok is:

  1. jelenleg csak egy gépen működik a clipping, de szerintem virtuális meghajtókkal be tudom majd állítani több PC-n is,
  2. mentett tartalmat megosztani nem igazán lehet, ehhez más alkalmazások kellenek,
  3. a mentés után már nem igazán szerkeszthetőek a metaadatok (pontosabban html oldalról kell őket módosítgatni), így valójában csak a full clip törölhető,
  4. van némi beállítgatási mágia Firefox oldalon, ami nem feltétlenül kényelmes, de együtt tudok vele élni (be kell állítani egy alapértelmezett mentési könyvtárat, így pl. minden böngészőbe megnyitott PDF oda fog mentődni => néha manuálisan törölni kell őket),
  5. a plug-in beállítása sem triviális és kevés hozzá az elérhető támogatás (a végén már kínai-ról fordítottam Deepl-el fórumok bejegyzéseit :).

1 hozzászólás

  1. RK március 26, 2024 3:40 du. 

    Firefox alatt van: SingleFile extension, az is le tudja menteni a weboldalt, meg minden mást is ami rajta van.

    Evernote helyett ajánlom: Obsidian-t, remotely-save pluginnal menthetsz pl dropboxra és végtelen kliens syncelhet vele.

Vélemény, hozzászólás?