Hi, i need some help with siteini.
For some reason i get ";" in my description, and i don´t know what to do to remove it, becouse i have tried with description.modify {remove|;} but it is still there.
here is siteini i´m using:
site {url=mojtv.hr|timezone=Europe/Zagreb|maxdays=6|cultureinfo=hr-HR|charset=UTF-8|titlematchfactor=60}
url_index{url|http://mojtv.hr/kanal/tv-program/|channel|/|urldate|.aspx}
urldate.format {list|danas|sutra|{weekdayname|ponedjeljak|utorak|srijeda|cetvrtak|petak|subota|nedjelja}}
index_urlshow {url|http://mojtv.hr|href="|||"}
*
index_showsplit.scrub {multi|<h1 id="MainContent_programsingle_h1title"|<span class="progress">|</li>|<script type="text/javascript">}
index_start.scrub {single|<em class="time">||</sup>|</em>}
index_title.scrub {single|<strong class="title">||</strong>|</strong>}
index_date.scrub {single(force)|<a class="show"|rel="| |">|">}
*index_temp_1.scrub {multi(separator=",")|<span style="color:#d10005;|<span>|</span>}
index_productiondate.scrub {single(separator="," include=2)|<strong class="desc">||</strong|</strong}title.scrub {single|<h1 style="font-size:24px">||</h1>|</div}
subtitle.scrub {single|<div class="podnaslov"|">|</div>|<br />}
* description.scrub {single(exclude="P.S. Ovdje NE MOŽETE besplatno gledati filmove")|<p style=|">|</p>|<div id='MainContent_reminderbutton' class="reminderholder">}
* scrubs for films. series
category.scrub {multi|<ul class="genres">|">|</a>|</ul>}
title.scrub {single|<h1 id="MainContent_film_naziv"|">|</h1>|</div}
description.scrub {single|<div style="font-size:18px; line-height:1.3em||</div>|</div>}
director.scrub {regex||<li itemprop="director".+?<span itemprop="name">(.+?)</span>||}
actor.scrub {regex||<li itemprop="actor".+?<span itemprop="name">(.+?)</span>||}
writer.scrub {regex||<li itemprop="creator".+?<span itemprop="name">(.+?)</span>||}index_start.modify {replace|.|:}
description.modify {cleanup(tags="<"">")}
description.modify {remove|">}
And here is the xml output i´m having problem:
<programme start="20170309093300 +0100" stop="20170309102700 +0100" channel="HRT 1">
<title lang="hr">Čarolija</title>
<desc lang="hr">;
Idejna začetnica i scenaristica serije do sedme sezone je Maria Venturi, a serija se osim ljubavnim pričama u prvih šest sezona intenzivno bavila aktualnim socijalnim temama. Gledanost serije je bila izvrsna: prosječno 4 milijuna gledatelja(n)</desc>
<credits>
<director>Gianni Lepre</director>
<actor>Agnese Nano</actor>
<actor>Giovanni Guidelli</actor>
<actor>Paola Vanni Corbellini</actor>
<actor>Paola Pitagora</actor>
<actor>Delia Boccardo</actor>
<actor>Orso Maria Guerrini</actor>
<actor>Marco Quaglia</actor>
<actor>Daniela Poggi</actor>
<actor>Paolo Malc</actor>
<actor>Giada Carlucci</actor>
<writer>Maria Venturi</writer>
</credits>
<date>1998</date>
<category lang="hr">drama</category>
<category lang="hr">romantika</category>
</programme>
This ";" and alot of space somehow got in, and i need help to remove that.
I didn't realize that...
Now i see that in page data sometimes is:
and sometimes:
How to fix this problem?
Thanks, everything works now, but lets say, slow.
I need to use this:
description.scrub {multi|<div style="background:#fff; padding:14px 14px 1px 170px; margin-top:-4px; font-size:14px; letter-spacing:0px">|<p>|</p>|<br />}
description.scrub {multi|<div style="background:#fff; padding:14px 14px 1px 170px; margin-top:-4px; font-size:14px; letter-spacing:0px">|<div>|</div>|<br />}
description.scrub {multi|<div style="background:#fff; padding:14px 14px 28px 170px; margin-top:-4px; font-size:14px; letter-spacing:0px">|<p>|</p>|<br />}
description.scrub {multi|<div style="background:#fff; padding:14px 14px 28px 170px; margin-top:-4px; font-size:14px; letter-spacing:0px">|<div>|</div>|<br />}
becouse they sometimes use different style for div, but it is the same description of show. Is there any way to make only one string, or two?
Thanks...
It works, 4 minutes faster :)
now...it would be good if i could make empty row in description between 2 scrub lines, so that it is separated by row in xmltv output.
can this be done?
<programme start="20170310102600 +0100" stop="20170310112000 +0100" channel="HRT 1">
<title lang="hr">Neobični vlakovi</title>
<desc lang="hr">Odabravši vlak kao prijevozno sredstvo, imat ćemo dovoljno vremena za otkrivanje, sanjarenje... i susrete sa zanimljivim ljudima.
Naš putnik i izvjestitelj Philippe Gougler uvjeren je da bez susretanja ljudi putovanje gubi smisao. Vlak je u svakoj zemlji idealno mjesto za upoznavanje sa životom običnih, a ipak neobičnih putnika. Od onih koji Shinkansenom svakodnevno putuju na posao, do tima koji razvrstava poštu na Šri Lanki, Philippe se susreće s lokalnim stanovništvom i tako nam predočava njegovu mudrost, posebnost i ljudskost. Između dvaju putovanja vlakom, zaustavit ćemo se kako bismo razgledali najvažniju baštinu i povijesne lokalitete svake zemlje. Od Škotske do Tanzanije, kroz Maroko i Brazil, svaka epizoda osmišljena je i snimljena kao zasebna cjelina, kao odraz čudesnog putovanja u samo srce tih zanimljivih kultura(n)</desc>
<category lang="hr">dokumentarni</category>
</programme>
This is the first scrub line:
Odabravši vlak kao prijevozno sredstvo, imat ćemo dovoljno vremena za otkrivanje, sanjarenje... i susrete sa zanimljivim ljudima.
Naš putnik i izvjestitelj Philippe Gougler uvjeren je da bez susretanja ljudi putovanje gubi smisao.
and this is the second scrub line:
Vlak je u svakoj zemlji idealno mjesto za upoznavanje sa životom običnih, a ipak neobičnih putnika. Od onih koji Shinkansenom svakodnevno putuju na posao, do tima koji razvrstava poštu na Šri Lanki, Philippe se susreće s lokalnim stanovništvom i tako nam predočava njegovu mudrost, posebnost i ljudskost. Između dvaju putovanja vlakom, zaustavit ćemo se kako bismo razgledali najvažniju baštinu i povijesne lokalitete svake zemlje. Od Škotske do Tanzanije, kroz Maroko i Brazil, svaka epizoda osmišljena je i snimljena kao zasebna cjelina, kao odraz čudesnog putovanja u samo srce tih zanimljivih kultura(n)
so, in the middle i would like empty row, like new paragraph, something like that, becouse first part is short description of show, and the second is detailed description of episode.
Hope you understand what i mean and need.
no no, this is first (short):
description.scrub {regex||<div style="font-size:18px; line-height:1.3em[^"]*">(.*?)</div>||}
and this is second (long):
description.scrub {regex||<div style="background:#fff; padding:14px 14px (?:1\|28)px 170px; margin-top:-4px; font-size:14px; letter-spacing:0px">(?:.*?)(?:<p>\|<div>)(.*?)(?:</p>\|</div>)(?:.*?)<br />||}
and between that i would like empty row, or new paragraph, so that they are separated.
Everything is perfect now.
Thank you for your time :)
I just noticed one problem.
Everything is fine, except on shows where is long description missig, then it scrubs first comment on that show, i don't know why.
Have any idea?
Here is example:
from this show: http://mojtv.hr/emisije/18302/vijesti.aspx it scrubs this:
<programme start="20170310070000 +0100" stop="20170310070600 +0100" channel="HRT 1">
<title lang="hr">Vijesti</title>
<desc lang="hr">Svaki dan poslušajte aktualne vijesti.
Ovo je sramotna sjednica vlade.Gospodo zar vas nije sram kao intelektualce na sjednici čitati da ne dignete glavu sa tog spisa kojeg vam je netko drugi napisal,od ministra do premijera.</desc>
<category lang="hr">informativni</category>
</programme>
Ok, now it is fine, except it does not scrub last dot (.) at the end of the long description. Like this:
<programme start="20170310140000 +0100" stop="20170310144400 +0100" channel="HRT 1">
<title lang="hr">Kod doktora</title>
<desc lang="hr">Kreativni tim koji je osmislio hit seriju "Dr. Phil" je 2008. godine predstavio ovaj projekt koji se snima i dan danas. Svoju popularnost duguje tome što su gledatelji po prvi put dobili priliku za odgovore na goruća pitanja na koja odgovara cijeli tim poznatih i priznatih stručnjaka.
Emisiju vodi ekipa od četiri liječnika (Travis Stork, Andrew Ordon, Jim Sears, Lisa Masterson) kojima u goste dolaze drugi liječnici kako bi se mišljenja što više razlikovala. U svakoj emisiji daju svoje mišljenje o određenim zdravstvenim pitanjima, lijekovima i medicinskoj skrbi i to sve na način prilagođen gledateljima. Liječnički tim iz snova će odgovoriti na sva vaša pitanja koja se nikad niste usudili pitati svog liječnika</desc>
<category lang="hr">talk show</category>
</programme>
I have tried with: description.modify {addend|.} but no success :(
Were did that dot got lost?
Strange stuff, but works.
And one last "eye candy", how to capitalize category? See here it is all lower case:
<category lang="hr">informativni</category>
and i would like it to be normal, like:
<category lang="hr">Informativni</category>
with capiral first letter.
It works perfectly now, thanks :D
btw, you are very good at regex...
And now it does not take 15min to update 53 channels, it only takes 5 minutes! Huge improvement :)
Another problem, i thik this is the last one, it affects only movies as i have find.
example:
http://mojtv.hr/film/16394/bourneovo-naslijedje.aspx
at the end of long description, this is scrubbed:
googletag.cmd.push(function() { googletag.display('div-gpt-ad-1476876915250-0'); })
xml output:
<programme start="20170310201000 +0100" stop="20170310225000 +0100" channel="RTL">
<title lang="hr">Bourneovo naslijeđe</title>
<desc lang="hr">U novom dijelu poznate franšize izvorno nastale prema predlošku romana Roberta Ludluma se pojavljuje novi špijun Aaron Cross kojega glumi Jeremy Renner, dva puta nominiran za Oscara.
CIA je izgubila svaki trag Jasona Bournea (Matt Damon) prije šest tjedana u Moskvi. Istovremeno, Aaron Cross (Jeremy Renner), vladin operativac, nalazi se na tajnom zadatku Ministarstva obrane na Aljasci, gdje mora preživjeti ekstremne vremenske uvjete i naporne treninge, kao dio tajnog eksperimenta u kojem sudjeluje kao pokusni kunić. Naime, Croosu su dane droge koje pojačavaju mentalne i fizičke sposobnosti kod korisnika. U međuvremenu, nakon što je Bourne razotkrio tajne operacija CIA-e (Treadstone i Blackbriar), FBI i senat, istražuju aferu koja je došla u medije, a pod povećalom su direktor CIA-e, Ezra Kramer (Scott Glenn), Blackbriar predstavnik Noah Vosen (David Strathairn) te doktor Treadstona, Albert Hirsch (Albert Finney), koji pak, odluče prekinuti sve tajne operacije, uključujući i onu u kojoj sudjeluje Aaron Cross, a svi sudionici moraju nestati. googletag.cmd.push(function() { googletag.display('div-gpt-ad-1476876915250-0'); }).</desc>
<credits>
<director>Tony Gilroy</director>
<actor>Jeremy Renner</actor>
<actor>Rachel Weisz</actor>
<actor>Edward Norton</actor>
<actor>Donna Murphy</actor>
<actor>Albert Finney</actor>
<actor>Oscar Isaac</actor>
<actor>Joan Allen</actor>
<actor>Scott Glenn</actor>
<actor>David Strathairn</actor>
<actor>Michael Chernus</actor>
<actor>Stacey Keach</actor>
<writer>Tony Gilroy</writer>
<writer>Dan Gilroy</writer>
</credits>
<date>2012</date>
<category lang="hr">Triler</category>
</programme>
I did second solution, and it is working now.
I hope that there will be no more problems...
In attachment is this mojtv.hr siteini...